pip install tudou
安装使用在predict_test.ipynb中有预测代码的演示,可以看到效果比绝大多数开源中文nlp库要好,但是速度较慢(时间主要浪费在加载模型参数上了),所以推荐一次性输入多个语句的文本列表进行使用
python >=3.6 tensorflow >= 1.12.0
提供了三个接口,包括预测,常用工具以及利用bert训练模型的接口
新建一个实例
trainer=tudouNLP.models.train.train(*params)
train函数的说明函数,包括一些参数及文件格式的说明
trainer.help()
trainer()
results=trainer.predict()
训练的时候没有返回值,根据参数中task_name开始不同的训练任务
包括文本分类,序列标注以及句子匹配任务的训练
预测时要注意与训练时参数要相同(主要是label_list、label_dict
),同时输出目录也要相同
参数简介
:param task_name:任务名:目前包括实体识别ner,序列标注tag,句子分类classify,句子配对pair
:param label_list: 任务的标签列表,在序列标注任务中要加入【CLS】,[SEP]
:param label_dict: 序列标注任务中标签与ID对应的字典名
:param data_dir: 数据文件
:param model_dir: 模型文件
:param output_dir: 输出文件
:param eval: 是否进行验证
:param max_seq_length:
:param learning_rate:
:param batch_size:
提供的文件格式说明
1. 序列标注任务文件格式为 word tag
2. 文本分类任务文件格式为 sentence label
3. 句子配对任务文件格式为 index text1 text2 label ,其中index为不必要的列,中间分隔符为\t
4. 文件在data_dir中,训练文件命名为train.txt,验证集文件命名为dev.txt
使用时要创建一个实例
predictor=tudouNLP.models.predict.sentence(model_dir)# 参数为模型所在文件夹
result=predictor.sentiment(document,full_msg)
result=predictor.pair(document,full_msg,model_name)
同情感分析
predictor=tudouNLP.models.predict.tagger(model_dir)
result=predictor.cut(document,mode='cut')
result=predictor.cut(document,mode='posseg')
同分词,不过返回分词结果列表
使用时要创建一个实例
tool=tudouNLP.tools.utils.tools()
tool.posseg_data(input_dir,output_file)
tool.compress_model(input_file,output_file)
将训练后的模型参数进行压缩
链接: https://pan.baidu.com/s/1_dBX3-mjY3-Dedm96XNY2g 提取码: tjqe
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。