一行代码完成 TXT语料文本 “初步”清洗。自动转码UTF-8、自动过滤Html标签/url网址/email地址/emoji表情符号/全角字符/无用空白行、自动进行简繁体双向互转、“自定义”进行文本语料高级过滤清洗、自动对人名、地名、组织机构进行遮码处理……最终自动合并TXT语料文件,形成NLP训练用文本语料库。
删除星选集 ,关注此星选集的用户都无法再看到这个星选集的内容。 星选集内的仓库不会被取消 Star。
取消公开星选集 ,关注此星选集的用户都无法再看到这个星选集的内容。
移出后,此仓库不会被取消Star。