2 Star 2 Fork 0

WeiRiWa / Tibetan word segmentation

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

基于BiLSTM+CRF的藏文分词模型

介绍

本项目是一种基藏文分词模型,用音节嵌入+BiLSTM训练模型,最后CRF来分词。

数据预处理

  • 训练数据

    训练样本
  • 音节表

依赖包

  1. numpy 1.20.1
  2. keras 2.7.0
  3. python 3.8

使用说明

  1. xxxx
  2. xxxx
  3. xxxx

数据来源

本项目的数据来源是:

  • MLIP2021

第二届少数民族语言分词技术评测的共享语料。

  • 项目名称:藏文分词
  • 代号: TI
  • 语种: 藏文
  • 训练语料:2.5W
  • 测试语料:2W

参考文献

  1. 深度学习项目四: 实现自己的中文分词模型,基于双向的LSTM(含数据和所需源码)
  2. [深度学习TF2][RNN-LSTM]文本情感分析包含(数据预处理-训练-预测)
  3. 动手学深度学习在线课程
  4. LSTM中文分词

空文件

简介

基于BiLSTM+CRF的藏文分词模型 展开 收起
Python
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
Python
1
https://gitee.com/weiriwa/tibetan-word-segmentation.git
git@gitee.com:weiriwa/tibetan-word-segmentation.git
weiriwa
tibetan-word-segmentation
Tibetan word segmentation
master

搜索帮助