# CNKI_mining **Repository Path**: ghislaine/cnki_mining ## Basic Information - **Project Name**: CNKI_mining - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2021-06-14 - **Last Updated**: 2021-07-02 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # CNKI_mining #### 介绍 基于selenium对中国知网使用高级检索对于C刊下各领域“数据挖掘”内容进行爬取,爬取分为两部分,第一部分(不含验证码)获取950篇论文信息制作成为表格,并将下载链接存入Excel中,第二部分(含验证码)使用selenium循环Excel链接进行下载(没有下载权限的将会显示”没有下载权限“并跳过这篇文章),第三部分:爬取refworks。 在三百八十多篇文章后遇到了验证码问题,已解决后不再爬取450篇以后内容 #### 文件说明 2. [cnki_data.ipynb](https://gitee.com/ghislaine/cnki_mining/blob/master/cnki_data.ipynb)--对文章列表信息进行爬取 3. [cnki_download.ipynb ](https://gitee.com/ghislaine/cnki_mining/blob/master/cnki_download.ipynb)--下载文章原文 3. [CNKI_数据挖掘.xlsx](https://gitee.com/ghislaine/cnki_mining/blob/master/CNKI_%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98.xlsx)--存储表格的Excel 4. 由于文章原文内容太大,不上传,仅截图展示 #### 其他 表格爬取结果 ![data](./pic/data.png) 验证码填入过程 ![code](./pic/ver.png) 批量下载结果 ![result](./pic/result.png) 调用api结果 ![api](./pic/code.png)