# miniseg **Repository Path**: holmos/miniseg ## Basic Information - **Project Name**: miniseg - **Description**: A Chinese Words Segmentation Tool Based on Bayes Model - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2015-01-20 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README Introduction ============ MiniSeg在传统的HMM分词模型上做了一点改进,修改了viterbi算法中的状态到字符的发射概率的计算方法,把它改为用Naive Bayes去估计。 用NB估计的时候考虑了了当前字符周围的字符。经过试验,取得了比传统HMM模型更好的分词效果(有待数据支持)。 Naive Bayes模型的建立 ===================== NB的feture的建立是5个字符一个窗口。 比如,对于“....我是中国人....”的“中”这个字。 它的feature就是: (我,是,中,国,人,我是,是中,中国,国人,是国) //10个feature 它的label就是: "B", 表示”中“这个字是一个词语的开头。 下面是用与NB训练的Feature+Label训练集合的一个截图: 代 中 后 期 , 代中 中后 后期 期, 中期 B 中 后 期 , 对 中后 后期 期, ,对 后, E 后 期 , 对 叔 后期 期, ,对 对叔 期对 S 期 , 对 叔 本 期, ,对 对叔 叔本 ,叔 S , 对 叔 本 华 ,对 对叔 叔本 本华 对本 B 对 叔 本 华 、 对叔 叔本 本华 华、 叔华 M 叔 本 华 、 尼 叔本 本华 华、 、尼 本、 E 本 华 、 尼 采 本华 华、 、尼 尼采 华尼 S 华 、 尼 采 的 华、 、尼 尼采 采的 、采 B 、 尼 采 的 著 、尼 尼采 采的 的著 尼的 E 尼 采 的 著 作 尼采 采的 的著 著作 采著 S 采 的 著 作 读 采的 的著 著作 作读 的作 B 的 著 作 读 得 的著 著作 作读 读得 著读 E 著 作 读 得 多 著作 作读 读得 得多 作得 S 作 读 得 多 了 作读 读得 得多 多了 读多 S 读 得 多 了 , 读得 得多 多了 了, 得了 S 得 多 了 , 发 得多 多了 了, ,发 多, S 多 了 , 发 现 多了 了, ,发 发现 了发 S 了 , 发 现 他 了, ,发 发现 现他 ,现 B , 发 现 他 们 ,发 发现 现他 他们 发他 E 发 现 他 们 思 发现 现他 他们 们思 现们 B 现 他 们 思 考 现他 他们 们思 思考 他思 E 他 们 思 考 的 他们 们思 思考 考的 们考 B 们 思 考 的 起 们思 思考 考的 的起 思的 E 思 考 的 起 点 思考 考的 的起 起点 考起 S 考 的 起 点 也 考的 的起 起点 点也 的点 B 的 起 点 也 是 的起 起点 点也 也是 起也 E 起 点 也 是 这 起点 点也 也是 是这 点是 S 你会发现,竖着读是通顺的:),第3列是主线。 B: 词语的开头 M: 词语的中间 E: 词语的结束 S: 单字成词 训练完成后,对于给定的一个字符,我们可以得到5个字符构成的窗口的feature,从而预测出它属于4个lable的概率分别是多少。 这显然别传统的HMM模型中发射概率:P(char|label)利用了更多的信息。 Related Work ========== TODO Benchmark ========== TODO Demo ==== http://miniseg.ap01.aws.af.cm/