1 Star 1 Fork 1

ghwolf / 分词引擎

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
克隆/下载
README.md 1.36 KB
一键复制 编辑 原始数据 按行查看 历史
ghwolf 提交于 2020-06-07 19:58 . update README.md.

分词引擎 0.1.0 BETA

介绍

一个轻量级,基于词库的分词引擎,包含基本的分词,和混淆字处理等功能。但目前由于缺乏语义理解,分词后的词汇含义会有些不同。

目前已经集成有3w多汉字,37w词汇,以及553个易混淆字
com.gframework.fenci.db包下有两个txt

  1. word.txt:是词汇库,一行一个词
  2. error-prone-word.txt:是混淆字库,每行是一类,每行多个字用空格分割。

目前处于BETA BETA BETA超初始版本,由于很多功能暂未开始设计,所以暂不提供如jar或maven等相关内容。 如果想要使用,直接讲这些代码复制到你的工程中即可,词库也是公开的,你可以自行扩展。

国内很多大学其实已经实现了比较好的分词引擎,如清华大学的 THULAC 可以实现基于语义的分词。

开发此组件的目的一方面是自我技术提升(后期若有时间会参考上述相关论文,也会扩展基于语义的分词功能)。一方面是想开发一个很简单很简单很简单的,能快速集成简单使用的,不需要多么复杂场景的一个分词组件。

目前此组件的性能为:20个左右的字,中英文混合并且有混淆错误的字,处理效率约为1毫秒500次

Java
1
https://gitee.com/ghwolfs/fenci.git
git@gitee.com:ghwolfs/fenci.git
ghwolfs
fenci
分词引擎
master

搜索帮助