# IMDB_text_classification

**Repository Path**: zeng798473532/imdb_text_classification

## Basic Information

- **Project Name**: IMDB_text_classification
- **Description**: 自然语言处理期中作业：IMDB文本分类
- **Primary Language**: Python
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 1
- **Forks**: 0
- **Created**: 2021-11-28
- **Last Updated**: 2022-01-11

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

## 代码说明


* main.py文件：
用于数据加载和模型参数训练。可设置参数feature、network、早停策略、epoch等。
* utils.py：一些通用的函数，核心为两个网络结构定义：mlp和cnn
* preprocess.py文件：对数据进行预处理，只运行一次，获得的数据将会保存在data目录下。该数据是运行后续必须的数据。
* main_checkpoint.py文件：对训练好的模型进行加载并通过测试集测试效果

* models_*.py文件：

  每一个特征都对应这一个类，分别在文件models_*.py文件中。每一个类都实现了以下函数：
1. \_\_init\_\_函数：初始化该模型的相关变量，如词典个数、词向量大小、网络结构（mlp或cnn），同时存储该模型的数据集 。
2. load_data函数和make_data函数：实现数据的加载与处理，将原始数据转化成对应特征和模型所需要的表示形式。注意：参数save表示是否存储中间数据。经过preprocess的数据一定是需要保存的，而make_data产生的数据不一定需要保存。直接调用load_data会进行处理获得所需数据
3. build_model函数调用utils.py 文件中的预定义好的模型进行模型结构建立
4. train调用fit函数进行训练，使用类中存储的训练集和验证集。
5. eval函数评估存储在类中的测试集数据
6. save_model和load_model函数可自定义存储和加载模型参数