加入 Gitee

与超过 1200万开发者一起发现、参与优秀开源项目，私有仓库也完全免费：）

该仓库未声明开源许可证文件（LICENSE），使用请关注具体项目描述及其代码上游依赖。

克隆/下载

Merge branch 'master' of https://gitee.com ... f798a8a

SyllalbeEmbedding.py

TibetanWordSegmentation.py

WordEmbedding.py

test_corpus.txt

tibetancorpus2.5.txt

training_Bi.csv

training_CB_Bi.csv

training_s_Bi.csv

visualization.py

word2cev_CBOW.txt

Loading...

README

基于BiLSTM+CRF的藏文分词模型

介绍

本项目是一种基藏文分词模型，用音节嵌入+BiLSTM训练模型，最后CRF来分词。

数据预处理

训练数据
音节表

依赖包

numpy 1.20.1
keras 2.7.0
python 3.8

使用说明

xxxx
xxxx
xxxx

数据来源

本项目的数据来源是：

MLIP2021

第二届少数民族语言分词技术评测的共享语料。

项目名称：藏文分词

代号： TI

语种：藏文

训练语料：2.5W

测试语料：2W

参考文献

基于BiLSTM+CRF的藏文分词模型

Python

取消

暂无发行版

Python

1

https://gitee.com/weiriwa/tibetan-word-segmentation.git

git@gitee.com:weiriwa/tibetan-word-segmentation.git

weiriwa

tibetan-word-segmentation

Tibetan word segmentation

master