# 牛客网爬虫以及OJ文本多标签分类

**Repository Path**: earth_wyz/nowcoder-crawler

## Basic Information

- **Project Name**: 牛客网爬虫以及OJ文本多标签分类
- **Description**: 爬取牛客网上面的OJ题（题目描述+标签），用于自动标签生成。
用magpie进行多标签分类。
- **Primary Language**: Python
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 3
- **Forks**: 1
- **Created**: 2020-10-28
- **Last Updated**: 2023-01-16

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 牛客网爬虫

#### 介绍
爬取牛客网上面的OJ题（题目描述+标签）

这些数据可以用于文本多标签分类方面的工作

本项目根据这些数据，通过magpie进行OJ文本多标签分类

#### 软件架构
project目录是项目的根目录，其下有：

| 目录/文件       | 功能                                                         |
| --------------- | ------------------------------------------------------------ |
| data/           | 一个文件就是一个题库，包括多行，每行为：问题描述-问题标签，描述和标签之间用tab分隔，标签之间用空格分隔 |
| segment/        | 由于后面用到了magpie，需要将文本和标签转化为相应的格式，每个txt文件包括一段文本，同名的lab文件就是该文本对应的标签 |
| predict/        | 放了segment里的小部分文件,用作训练集                        |
| train/ | 放了segment里的大部分文件,用作训练集|
| model/          | 保存下来的模型                                               |
| trial/          | 没有用，里面的东西是写着玩的                                 |
| Main.py         | 执行后会在data/目录下生成文本-标签数据                       |
| StringDealer.py | 执行后会在segment/目录下生成用于训练模型的数据               |
| Learn.py        | 执行后可以选择：1.训练模型并保存；2.加载已有的模型           |
| Estimate.py| 用precision,recall,f1, 评估模型|


#### 安装教程

下载项目之后，直接用pycharm打开project目录

#### 使用说明

1.  执行Main.py

    会把爬下来的数据放到data目录下

2.  执行StringDealer.py

    会把data目录下的数据进行处理，然后放到segment目录下

3.  把segment目录复制一份，重命名为train目录，用来作训练集

4.  执行Learn.py，根据提示进行操作
5.  评估模型，执行Estimate.py，注意这个py文件的main函数下可能需要根据自己的需求把一些代码注释掉

#### 参与贡献

1.  Fork 本仓库
2.  新建 Feat_xxx 分支
3.  提交代码
4.  新建 Pull Request