1 Star 0 Fork 0

oslzh / mmseg4j-ext

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
克隆/下载
README.md 1.04 KB
一键复制 编辑 原始数据 按行查看 历史
liaozhonghui 提交于 2021-04-14 16:27 . add

mmseg4j-ext

源Git地址:https://gitee.com/eavnfor/mmseg4j-ext.git 针对mmseg4j的拓展,弥补了多处的不足(特别是英语处理方面)(基本上的需求都可以满足)

比如英文词组amazon collection

英语数字连词,比如GH2300K(不用加词库)

中英混合词T恤,U盘,牛B等前中后英,前英后中类型的词语

数字加量词比如1.8m,2.3kg,1.5斤等(不用加词库)

带有特殊符号的词语,比如空格,冒号,斜杠等;比如 PG ,3.1 phillip lim,,a-morir,a'kin等

英语单词自动识别,比如hylo-comod

添加了停用词

提供60万词库,包括海外品牌,量词,通用词(电商词库+ sougou+公司项目中自己整理)等等

为了达到更好的分词效果,完全可以不用默认词库,自己从0开始构建适合自己项目的词库

#注意: 需要防止单词截断,因为英文目前也是基于最大匹配,而不是按照空格切分,因此需要注意截断问题

1
https://gitee.com/ixigua0526/mmseg4j-ext.git
git@gitee.com:ixigua0526/mmseg4j-ext.git
ixigua0526
mmseg4j-ext
mmseg4j-ext
master

搜索帮助