# MasterThesis **Repository Path**: danielljc/MasterThesis ## Basic Information - **Project Name**: MasterThesis - **Description**: 我的硕士论文中数据获取部分的代码 - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2020-04-05 - **Last Updated**: 2022-03-31 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Daniel's Master Thesis 硕士毕业论文中的数据获取部分代码 ## 数据来源 Jiang Siyuan 509K dataset Xu Shengbin 90661 dataset Jiang 包含 Xu ## 目的 由于实验对标Xu的论文,故数据也需使用Xu的数据集 然而ChangeScribe的输入是,但Xu的输入为 所以需要重新爬取A files和B files ## 流程 1. 选择对比元素 —— generator.py 2. 计算509K数据集与90K数据集的交集 —— result.csv 3. 构造URL —— db_query.py 4. 过滤失效URL —— db_query.py 5. 爬数据 —— spider.py main.py 6. 写入Message文件 —— generator.py(msg2file) ## 代码结构 * dataset:保存CoDiSum原始数据和上述流程中生成的数据 * prepare:爬取准备工作,包括生成中间数据的代码 * scrapy4git:爬虫代码 * statistic:数据统计,用于验证程序的正确性 ## 结果 爬取结果保存在download文件夹中 ## 注意 * 在根目录下新建download文件夹 * 修改各文件路径