代码拉取完成,页面将自动刷新
一个轻量级,基于词库的分词引擎,包含基本的分词,和混淆字处理等功能。但目前由于缺乏语义理解,分词后的词汇含义会有些不同。
目前已经集成有3w多汉字,37w词汇,以及553个易混淆字。
在com.gframework.fenci.db
包下有两个txt
目前处于BETA BETA BETA超初始版本,由于很多功能暂未开始设计,所以暂不提供如jar或maven等相关内容。 如果想要使用,直接讲这些代码复制到你的工程中即可,词库也是公开的,你可以自行扩展。
国内很多大学其实已经实现了比较好的分词引擎,如清华大学的 THULAC 可以实现基于语义的分词。
开发此组件的目的一方面是自我技术提升(后期若有时间会参考上述相关论文,也会扩展基于语义的分词功能)。一方面是想开发一个很简单很简单很简单的,能快速集成简单使用的,不需要多么复杂场景的一个分词组件。
目前此组件的性能为:20个左右的字,中英文混合并且有混淆错误的字,处理效率约为1毫秒500次。
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。