代码拉取完成,页面将自动刷新
en | ch
数据集包含已经划分好的训练集、测试集和验证集
格式如下,使用Entity标签作为Y
-DOCSTART- -X- O O
-sentence- -pos- -Chuck- -Entity-
-data # 原始数据
-emb # BERT模型存放路径(如果没有指定的模型文件,transformers会自行下载,速度很快)
-util
-dataTool.py # 数据接口
-model.py # 模型定义
-trainer.py # 训练和测试接口
config.py # 实验参数配置
run.py
requirement.txt # 项目依赖
EDA.ipynb # 探索性数据分析,确定一些超参数。如通过观察文本长度分布确定padding_size
将NER模型解耦,分解为encoder和tagger
encoder负责文本特征变换,可以使用bert或者lstm
tagger负责序列标注,可以使用softmax或者crf
# 部署相关依赖
chmod 755 deploy
./deploy
./gpu n # 监控GPU使用情况,n为每秒刷新频率
# 如果GPU利用率低,IO角度可以考虑pin_memory或者增加num_workers,
# 训练角度可以考虑增加batch_size
./run # 开始训练
Model | Precision | Recall | F1 |
---|---|---|---|
Bert-CRF | 0.71 | 0.68 | 0.69 |
Bert-softmax | - | - | - |
Bert-BiLSTM-CRF | - | - | - |
Bert-BiLSTM-softmax | - | - | - |
从Bert-CRF实验结果来看,存在support极少的标签影响整体分值,可以从以下角度着手优化
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。