Fetch the repository succeeded.
源Git地址:https://gitee.com/eavnfor/mmseg4j-ext.git 针对mmseg4j的拓展,弥补了多处的不足(特别是英语处理方面)(基本上的需求都可以满足)
比如英文词组amazon collection
英语数字连词,比如GH2300K(不用加词库)
中英混合词T恤,U盘,牛B等前中后英,前英后中类型的词语
数字加量词比如1.8m,2.3kg,1.5斤等(不用加词库)
带有特殊符号的词语,比如空格,冒号,斜杠等;比如 PG ,3.1 phillip lim,,a-morir,a'kin等
英语单词自动识别,比如hylo-comod
添加了停用词
提供60万词库,包括海外品牌,量词,通用词(电商词库+ sougou+公司项目中自己整理)等等
为了达到更好的分词效果,完全可以不用默认词库,自己从0开始构建适合自己项目的词库
#注意: 需要防止单词截断,因为英文目前也是基于最大匹配,而不是按照空格切分,因此需要注意截断问题
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。