# 牛客网爬虫以及OJ文本多标签分类 **Repository Path**: earth_wyz/nowcoder-crawler ## Basic Information - **Project Name**: 牛客网爬虫以及OJ文本多标签分类 - **Description**: 爬取牛客网上面的OJ题(题目描述+标签),用于自动标签生成。 用magpie进行多标签分类。 - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 3 - **Forks**: 1 - **Created**: 2020-10-28 - **Last Updated**: 2023-01-16 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 牛客网爬虫 #### 介绍 爬取牛客网上面的OJ题(题目描述+标签) 这些数据可以用于文本多标签分类方面的工作 本项目根据这些数据,通过magpie进行OJ文本多标签分类 #### 软件架构 project目录是项目的根目录,其下有: | 目录/文件 | 功能 | | --------------- | ------------------------------------------------------------ | | data/ | 一个文件就是一个题库,包括多行,每行为:问题描述-问题标签,描述和标签之间用tab分隔,标签之间用空格分隔 | | segment/ | 由于后面用到了magpie,需要将文本和标签转化为相应的格式,每个txt文件包括一段文本,同名的lab文件就是该文本对应的标签 | | predict/ | 放了segment里的小部分文件,用作训练集 | | train/ | 放了segment里的大部分文件,用作训练集| | model/ | 保存下来的模型 | | trial/ | 没有用,里面的东西是写着玩的 | | Main.py | 执行后会在data/目录下生成文本-标签数据 | | StringDealer.py | 执行后会在segment/目录下生成用于训练模型的数据 | | Learn.py | 执行后可以选择:1.训练模型并保存;2.加载已有的模型 | | Estimate.py| 用precision,recall,f1, 评估模型| #### 安装教程 下载项目之后,直接用pycharm打开project目录 #### 使用说明 1. 执行Main.py 会把爬下来的数据放到data目录下 2. 执行StringDealer.py 会把data目录下的数据进行处理,然后放到segment目录下 3. 把segment目录复制一份,重命名为train目录,用来作训练集 4. 执行Learn.py,根据提示进行操作 5. 评估模型,执行Estimate.py,注意这个py文件的main函数下可能需要根据自己的需求把一些代码注释掉 #### 参与贡献 1. Fork 本仓库 2. 新建 Feat_xxx 分支 3. 提交代码 4. 新建 Pull Request