3 Star 0 Fork 0

Gitee 极速下载 / scseg

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
此仓库是为了提升国内下载速度的镜像仓库,每日同步一次。 原始仓库: https://github.com/duanhongyi/scseg
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

scseg

scseg中文分词,是基于mmseg的简单分词组件

Feature

  • 支持pinyin分词
  • 支持用户自定义词典
  • 支持单位合并
  • 支持汉字数字识别

Install

  • pip install scseg
  • 通过import scseg来引用

Algorithm

  • 采用mmseg算法进行切分
  • 采用规则方式支持中文数字分词

功能 1):分词scseg.seg_text方法

  • scseg.seg_text函数接受3个参数:
  • text参数为需要分词的字符
  • ext_dict_words为用户自定义的扩展字典
  • use_combine代表是否需要合并处理

代码示例( 全功能分词 )

#encoding=utf-8
import genius

seg_list = scseg.seg_text(u'中国人民站起来了pinyin')
print '\n'.join(seg_list)

功能 2):面向索引的分词

  • scseg.seg_keywords为面向索引的切割方式
  • 其作用是枚举出所有可能的切割方式
  • text参数为需要分词的字符

代码示例( 全功能分词 )

#encoding=utf-8
import scseg

seg_list = scseg.seg_keywords(u'中国人民站起来了pinyin')
print '\n'.join(seg_list)

空文件

简介

scseg中文分词,是基于mmseg的简单分词组件 Feature 支持pinyin分词 支持用户自定义词典 支持单位合并 支持汉字数字识别 Install pip install 展开 收起
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
Python
1
https://gitee.com/mirrors/scseg.git
git@gitee.com:mirrors/scseg.git
mirrors
scseg
scseg
master

搜索帮助