# 评论分类器

**Repository Path**: breaktime1903/comment-classifiler

## Basic Information

- **Project Name**: 评论分类器
- **Description**: 供学习用途，欢迎参考
- **Primary Language**: Python
- **License**: MIT
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2021-08-16
- **Last Updated**: 2024-07-13

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 评论分类器

## 灵感

最近在学tensorflow时在谷歌官网上看到了关于IMDB影评的分类，就灵感大发写了这玩意，这个玩意儿基于tensorflow和numpy，以及自己写的词向量程序

如果程序出问题了可以先删除wordvct.json重构词向量库

## 原理

将文本转换为定长向量后输入，另外请务必让训练集的行数保持一致，否则准确率极低

## 训练集

训练集是从豆瓣上找来的，具体可以看 [train_data](train_data) 里的readme

## 安装

### 克隆本项目

#### ~~（在参加完比赛前该项目将一直处于封闭状态，修改后暂时不使用MIT协议）~~

#### 比赛已经结束，源代码开放了

### 安装必要的软件包

该项目所需的软件包可从[清华大学镜像站](https://mirrors.tuna.tsinghua.edu.cn/)获取

因为本程序原本是在Linux下编写的（ArchLinux），所以文档将说明Linux下的搭建方法，先下载主程序

```shell
wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-latest-Linux-x86_64.sh && ./Miniconda3-latest-Linux-x86_64.sh
```

按照指示安装miniconda，推荐安装到home目录以免破坏系统

接下来安装TensorFlow，numpy

```
conda activate base
conda install tensorflow numpy
pip install jieba
```

先执行model_build.py组建模组(正常情况下模组已经组建完毕)，再执行model_recall.py验证

```
python3 model_build.py
python3 model_recall.py
```

在执行model_recall.py时输入Y即可继续

#   悲痛的是好像神经元太多，训练率太高，已经出现过拟合了，接下来可能要调整学习率了