# TextClassify

**Repository Path**: kevingop/TextClassify

## Basic Information

- **Project Name**: TextClassify
- **Description**: 基于预训练模型的文本分类模板，CCF BDCI新闻情感分析初赛A榜4/2735，复赛1%
- **Primary Language**: Unknown
- **License**: Apache-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2020-03-04
- **Last Updated**: 2020-12-19

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

作者ustc-linhw

本文件为文本分类任务

比赛解题报告会在知乎和公众号上更新（题解报告已经更新）

知乎：https://zhuanlan.zhihu.com/p/94281007

公众号：纸鱼AI

![avatar](https://pic2.zhimg.com/80/v2-aa1e864f55284a12336b7132b91b0b9d_hd.jpg)

代码是基于郭大的开源代码修改的

目前支持的功能如下：

—— 训练数据集kfold处理

—— 训练数据集数据信息查看

—— 使用预训练模型进行文本分类

    —— roberta_wwm_ext_large

    —— roberta_large

    —— xlnet_large (to do)

—— 不同模型结果进行投票ensemble

—— 对于训练完成的模型自动保存模型，配置以及输出结果

主要文件目录如下：

—— backup-models:自动存档目录，输出的模型和结果会自动存档到该目录

—— data：数据文件，用于存放训练用的数据，在该文件下数据分析，数据kfold处理

—— pretrained_model: 用于存放预训练的模型

—— run_xxxxx.sh: 训练某个模型所使用的bash文件

—— run_xxxx.py: 具体的训练代码

—— ensemble_submits：对输出的result文件进行vote融合结果


具体使用流程


1. 对于不同的分类任务，可能需要修改下述文件，目前是2分类，如要修改，修改下述文件。

—— preprocess.py

—— run_bert.py

    —— 标签label

    —— 类别数

    —— 类别loss

—— combine.py


2. cd data && python analysis.py 查看数据集的相关情况

3. python preprocess.py 完成数据预处理，并且将数据分成kfold

4. 修改run_xxxx.sh文件设置参数

    注：该模型将文本截成k段，分别输入语言模型，然后顶层用GRU拼接起来。好处在于设置小的max_length和更大的k来降低显存占用，因为显存占用是关于长度平方级增长的，而关于k是线性增长

    1)实际长度 = max_seq_length * split_num

    2)实际batch size 大小= per_gpu_train_batch_size * numbers of gpu

    3)上面的结果所使用的是4卡GPU，因此batch size为4。如果只有1卡的话，那么per_gpu_train_batch_size应设为4, max_length设置小一些。

    4)如果显存太小，可以设置gradient_accumulation_steps参数，比如gradient_accumulation_steps=2，batch size=4，那么就会运行2次，每次batch size为2，累计梯度后更新，等价于batch size=4，但速度会慢两倍。而且迭代次数也要相应提高两倍，即train_steps设为10000

    具体batch size可看运行时的log，如：

    09/06/2019 21:03:41 - INFO - __main__ -   ***** Running training *****

    09/06/2019 21:03:41 - INFO - __main__ -     Num examples = 5872

    09/06/2019 21:03:41 - INFO - __main__ -     Batch size = 4

    09/06/2019 21:03:41 - INFO - __main__ -     Num steps = 5000

5. 最后输出文件会生成result.csv，模型会在对应的模型文件夹中生成，backup文件夹问自动保存对应的模型。