晓寒的个人主页
/
星选集
/
Python工具脚本
Python工具脚本
0
关注
暂无描述

    5 行者/TXT文本语料数据清洗(Text corpus data cleaning)

    一行代码完成 TXT语料文本 “初步”清洗。自动转码UTF-8、自动过滤Html标签/url网址/email地址/emoji表情符号/全角字符/无用空白行、自动进行简繁体双向互转、“自定义”进行文本语料高级过滤清洗、自动对人名、地名、组织机构进行遮码处理……最终自动合并TXT语料文件,形成NLP训练用文本语料库。

    最近更新: 3年多前

搜索帮助