# 分词引擎 **Repository Path**: chendx136/fenci ## Basic Information - **Project Name**: 分词引擎 - **Description**: 一个轻量级,基于词库的分词引擎,包含基本的分词,和混淆字处理等功能。但目前由于缺乏语义理解,分词后的词汇含义会有些不同。 - **Primary Language**: Java - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2024-04-10 - **Last Updated**: 2024-04-10 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 分词引擎 0.1.0 BETA #### 介绍 一个轻量级,基于词库的分词引擎,包含基本的分词,和混淆字处理等功能。但目前由于缺乏语义理解,分词后的词汇含义会有些不同。 **目前已经集成有3w多汉字,37w词汇,以及553个易混淆字**。 在`com.gframework.fenci.db`包下有两个txt 1. word.txt:是词汇库,一行一个词 2. error-prone-word.txt:是混淆字库,每行是一类,每行多个字用空格分割。 **目前处于BETA BETA BETA超初始版本,由于很多功能暂未开始设计,所以暂不提供如jar或maven等相关内容。 如果想要使用,直接讲这些代码复制到你的工程中即可,词库也是公开的,你可以自行扩展。** 国内很多大学其实已经实现了比较好的分词引擎,如清华大学的 [THULAC](https://github.com/thunlp/THULAC-Java#%E7%9B%B8%E5%85%B3%E8%AE%BA%E6%96%87) 可以实现基于语义的分词。 开发此组件的目的一方面是自我技术提升(后期若有时间会参考上述相关论文,也会扩展基于语义的分词功能)。一方面是想开发一个很简单很简单很简单的,能快速集成简单使用的,不需要多么复杂场景的一个分词组件。 **目前此组件的性能为:20个左右的字,中英文混合并且有混淆错误的字,处理效率约为1毫秒500次**。