# 分词引擎

**Repository Path**: chendx136/fenci

## Basic Information

- **Project Name**: 分词引擎
- **Description**: 一个轻量级，基于词库的分词引擎，包含基本的分词，和混淆字处理等功能。但目前由于缺乏语义理解，分词后的词汇含义会有些不同。
- **Primary Language**: Java
- **License**: Apache-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 1
- **Created**: 2024-04-10
- **Last Updated**: 2024-04-10

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 分词引擎 0.1.0 BETA

#### 介绍
一个轻量级，基于词库的分词引擎，包含基本的分词，和混淆字处理等功能。但目前由于缺乏语义理解，分词后的词汇含义会有些不同。  

**目前已经集成有3w多汉字，37w词汇，以及553个易混淆字**。  
在`com.gframework.fenci.db`包下有两个txt
1. word.txt：是词汇库，一行一个词
2. error-prone-word.txt：是混淆字库，每行是一类，每行多个字用空格分割。


**目前处于BETA BETA BETA超初始版本，由于很多功能暂未开始设计，所以暂不提供如jar或maven等相关内容。
如果想要使用，直接讲这些代码复制到你的工程中即可，词库也是公开的，你可以自行扩展。**  

国内很多大学其实已经实现了比较好的分词引擎，如清华大学的
[THULAC](https://github.com/thunlp/THULAC-Java#%E7%9B%B8%E5%85%B3%E8%AE%BA%E6%96%87)
可以实现基于语义的分词。

开发此组件的目的一方面是自我技术提升（后期若有时间会参考上述相关论文，也会扩展基于语义的分词功能）。一方面是想开发一个很简单很简单很简单的，能快速集成简单使用的，不需要多么复杂场景的一个分词组件。

**目前此组件的性能为：20个左右的字，中英文混合并且有混淆错误的字，处理效率约为1毫秒500次**。