# IMDB_text_classification **Repository Path**: zeng798473532/imdb_text_classification ## Basic Information - **Project Name**: IMDB_text_classification - **Description**: 自然语言处理期中作业:IMDB文本分类 - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2021-11-28 - **Last Updated**: 2022-01-11 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## 代码说明 * main.py文件: 用于数据加载和模型参数训练。可设置参数feature、network、早停策略、epoch等。 * utils.py:一些通用的函数,核心为两个网络结构定义:mlp和cnn * preprocess.py文件:对数据进行预处理,只运行一次,获得的数据将会保存在data目录下。该数据是运行后续必须的数据。 * main_checkpoint.py文件:对训练好的模型进行加载并通过测试集测试效果 * models_*.py文件: 每一个特征都对应这一个类,分别在文件models_*.py文件中。每一个类都实现了以下函数: 1. \_\_init\_\_函数:初始化该模型的相关变量,如词典个数、词向量大小、网络结构(mlp或cnn),同时存储该模型的数据集 。 2. load_data函数和make_data函数:实现数据的加载与处理,将原始数据转化成对应特征和模型所需要的表示形式。注意:参数save表示是否存储中间数据。经过preprocess的数据一定是需要保存的,而make_data产生的数据不一定需要保存。直接调用load_data会进行处理获得所需数据 3. build_model函数调用utils.py 文件中的预定义好的模型进行模型结构建立 4. train调用fit函数进行训练,使用类中存储的训练集和验证集。 5. eval函数评估存储在类中的测试集数据 6. save_model和load_model函数可自定义存储和加载模型参数