2 Star 2 Fork 0

WeiRiWa / Tibetan word segmentation

Create your Gitee Account
Explore and code with more than 8 million developers,Free private repositories !:)
Sign up
This repository doesn't specify license. Please pay attention to the specific project description and its upstream code dependency when using it.
Clone or Download
contribute
Sync branch
Cancel
Notice: Creating folder will generate an empty file .keep, because not support in Git
Loading...
README.md

基于BiLSTM+CRF的藏文分词模型

介绍

本项目是一种基藏文分词模型,用音节嵌入+BiLSTM训练模型,最后CRF来分词。

数据预处理

  • 训练数据

    训练样本
  • 音节表

依赖包

  1. numpy 1.20.1
  2. keras 2.7.0
  3. python 3.8

使用说明

  1. xxxx
  2. xxxx
  3. xxxx

数据来源

本项目的数据来源是:

  • MLIP2021

第二届少数民族语言分词技术评测的共享语料。

  • 项目名称:藏文分词
  • 代号: TI
  • 语种: 藏文
  • 训练语料:2.5W
  • 测试语料:2W

参考文献

  1. 深度学习项目四: 实现自己的中文分词模型,基于双向的LSTM(含数据和所需源码)
  2. [深度学习TF2][RNN-LSTM]文本情感分析包含(数据预处理-训练-预测)
  3. 动手学深度学习在线课程
  4. LSTM中文分词

About

基于BiLSTM+CRF的藏文分词模型 expand collapse
Cancel

Releases

No release

Contributors

All

Activities

Load More
can not load any more
Python
1
https://gitee.com/weiriwa/tibetan-word-segmentation.git
git@gitee.com:weiriwa/tibetan-word-segmentation.git
weiriwa
tibetan-word-segmentation
Tibetan word segmentation
master

Search