# NLP_CCF_competition **Repository Path**: coder_guoxd/NLP_CCF_competition ## Basic Information - **Project Name**: NLP_CCF_competition - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-11-30 - **Last Updated**: 2025-11-30 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 2020语言信息处理大作业 面向数据安全治理的数据内容智能发现与分级分类代码实现(pytorch)[题目链接](https://www.datafountain.cn/competitions/471) ## 介绍 本项目用于识别样本中的敏感数据,利用远程监督技术基于小样本构建文档分类分级文本库,并与BERT模型相结合,提取文本语义特征,构建具有较强泛化能力的文档分级分类模型,判断数据所属的类别以及级别。 ## 数据集 [数据集下载链接](https://www.datafountain.cn/competitions/471/datasets) 数据集包含如下数据: 1. 已标注数据labeled_data.csv:共7000篇文档,类别包含7类,分别为:财经、房产、家居、教育、科技、时尚、时政,每一类包含1000篇文档 2. 未标注数据unlabeled_data.csv:共33000篇文档 3. 分类分级测试数据test_data.csv:共20000篇文档,包含10个类别:财经、房产、家居、教育、科技、时尚、时政、游戏、娱乐、体育 每个数据样本由id、class_label(仅有标签数据)、content三个字段组成,分别代表数据id,数据所属类别以及文本内容。 文档类别与文档级别有如下对应关系: |文档类别class_label |文档级别rank_label| | ---- | ---- | |财经、时政 |高风险| |房产、科技 |中风险| |教育、时尚、游戏| 低风险| |家居、体育、娱乐| 可公开| 提交结果文件命名为“result.csv”,采用UTF-8统一编码,每个样本的预测结果包含id,class_label,rank_label三个字段。 ## 环境 - python 3 - pytorch 1.1 - csv - tqdm - sklearn - tensorboardX ## 预训练语言模型 本项目使用BERT预训练模型,模型下载地址如下: bert_Chinese: [模型](https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-chinese.tar.gz) [词表]( https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-chinese-vocab.txt) [模型的网盘地址](https://pan.baidu.com/s/1qSAD5gwClq7xlgzl_4W3Pw) 下载后将对应文件(pytorch_model.bin, bert_config.json, vocab.txt)放在bert_pretain目录下即可。 ## 使用说明 下载预训练模型,然后使用如下指令即可进行训练及测试: ```pyhton3.6 run.py``` 相关模型与参数均位于models目录下的bert.py文件里。