1 Star 0 Fork 0

tym_hmm / go-ericParticiple

Create your Gitee Account
Explore and code with more than 8 million developers,Free private repositories !:)
Sign up
Clone or Download
Cancel
Notice: Creating folder will generate an empty file .keep, because not support in Git
Loading...
README.md

ericParticiple

Go中文分词

词典用前缀树实现, 分词器算法为基于词频的最短路径加动态规划。

支持普通和搜索引擎两种分词模式,支持用户词典、词性标注,可运行JSON RPC服务

分词速度单线程2.5MB/s,goroutines并发27MB/s, 处理器32核Xeon。

安装/更新

go get -u gitee.com/tym_hmm/go-ericParticiple

使用

package main

import (
	"fmt"
	"gitee.com/tym_hmm/go-ericParticiple"
)

func main() {
	// 载入词典
	var segmenter ericPart.Segmenter
	segmenter.LoadDictionary("https://gitee.com/tym_hmm/go-ericParticiple/blob/master/data/dictionary.txt")

	// 分词
	text := []byte("中华人民共和国中央人民政府")
	segments := segmenter.Segment(text)
  
	// 处理分词结果
	// 支持普通模式和搜索模式两种分词,见代码中SegmentsToString函数的注释。
	fmt.Println(ericPart.SegmentsToString(segments, false)) 
}

Repository Comments ( 0 )

Sign in to post a comment

About

Go中文分词 词典用双数组trie(Double-Array Trie)实现, 分词器算法为基于词频的最短路径加动态规划。 支持普通和搜索引擎两种分词模式,支持用户词典、词性标注,可运行JSON RPC服务。 分词速度单线程9MB/s,goroutines并发42MB/s(8核Macbook Pro)。 expand collapse
Go and 2 more languages
AGPL-3.0
Cancel

Releases (1)

All

Contributors

All

Activities

Load More
can not load any more
Go
1
https://gitee.com/tym_hmm/go-ericParticiple.git
git@gitee.com:tym_hmm/go-ericParticiple.git
tym_hmm
go-ericParticiple
go-ericParticiple
master

Search

挂件 关闭按钮