1 Star 0 Fork 0

oslzh / mmseg4j-ext

Create your Gitee Account
Explore and code with more than 8 million developers,Free private repositories !:)
Sign up
Clone or Download
Cancel
Notice: Creating folder will generate an empty file .keep, because not support in Git
Loading...
README.md

mmseg4j-ext

源Git地址:https://gitee.com/eavnfor/mmseg4j-ext.git 针对mmseg4j的拓展,弥补了多处的不足(特别是英语处理方面)(基本上的需求都可以满足)

比如英文词组amazon collection

英语数字连词,比如GH2300K(不用加词库)

中英混合词T恤,U盘,牛B等前中后英,前英后中类型的词语

数字加量词比如1.8m,2.3kg,1.5斤等(不用加词库)

带有特殊符号的词语,比如空格,冒号,斜杠等;比如 PG ,3.1 phillip lim,,a-morir,a'kin等

英语单词自动识别,比如hylo-comod

添加了停用词

提供60万词库,包括海外品牌,量词,通用词(电商词库+ sougou+公司项目中自己整理)等等

为了达到更好的分词效果,完全可以不用默认词库,自己从0开始构建适合自己项目的词库

#注意: 需要防止单词截断,因为英文目前也是基于最大匹配,而不是按照空格切分,因此需要注意截断问题

Repository Comments ( 0 )

Sign in to post a comment

About

mmseg4j ex语法分词 expand collapse
Java
AFL-3.0
Cancel

Releases

No release

Contributors

All

Activities

Load More
can not load any more
1
https://gitee.com/ixigua0526/mmseg4j-ext.git
git@gitee.com:ixigua0526/mmseg4j-ext.git
ixigua0526
mmseg4j-ext
mmseg4j-ext
master

Search