分词引擎 0.1.0 BETA

一个轻量级，基于词库的分词引擎，包含基本的分词，和混淆字处理等功能。但目前由于缺乏语义理解，分词后的词汇含义会有些不同。

目前已经集成有3w多汉字，37w词汇，以及553个易混淆字。
在com.gframework.fenci.db包下有两个txt

目前处于BETA BETA BETA超初始版本，由于很多功能暂未开始设计，所以暂不提供如jar或maven等相关内容。如果想要使用，直接讲这些代码复制到你的工程中即可，词库也是公开的，你可以自行扩展。

国内很多大学其实已经实现了比较好的分词引擎，如清华大学的 THULAC 可以实现基于语义的分词。

开发此组件的目的一方面是自我技术提升（后期若有时间会参考上述相关论文，也会扩展基于语义的分词功能）。一方面是想开发一个很简单很简单很简单的，能快速集成简单使用的，不需要多么复杂场景的一个分词组件。

目前此组件的性能为：20个左右的字，中英文混合并且有混淆错误的字，处理效率约为1毫秒500次。

ghwolf / 分词引擎