# Web_Mining_CNKI实践

**Repository Path**: long_chu_yi/web--mining--cnki-practice

## Basic Information

- **Project Name**: Web_Mining_CNKI实践
- **Description**: 使用 Selenium 抓取 CNKI 数据
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 2
- **Forks**: 0
- **Created**: 2021-06-16
- **Last Updated**: 2024-12-26

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# Web_Mining_CNKI实践


# web数据挖掘期末项目——爬取知网文章
# 前期准备
- 用selenium打开知网，校园网进入。
- 添加各种功能代码，如指定下载路径......
```python
import pandas as pd
import numpy as np
import time
from requests_html import HTMLSession
from lxml.html import fromstring
from random import random
from selenium import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from time import sleep
import requests
import time
import hashlib
import base64
import json
import os
from PIL import Image 
```
```python
opts = webdriver.ChromeOptions()
opts.add_argument('--no-sandbox')#解决DevToolsActivePort文件不存在的报错
opts.add_argument('window-size=1920x3000') #指定浏览器分辨率
opts.add_argument('--disable-gpu') #谷歌文档提到需要加上一这个属性来规避bug
opts.add_argument('--hide-scrollbars') #隐藏滚动条, 应对些特殊页面
out_path = r'D:\数据挖掘pdf'  # 是你想指定的路径
prefs = {'profile.default_content_settings.popups': 0, 'download.default_directory': out_path}
opts.add_experimental_option('prefs', prefs)
driver = webdriver.Chrome( chrome_options = opts) #desired_capabilities=caps,

```
```python
#进入知网
driver.get('https://cnki.net')
```

```python
element=driver.find_element_by_xpath('//*[@id="Ecp_loginShowName1"]')
element.get_attribute('innerHTML')
```
运行过程代码可以看[ipynb文档](https://gitee.com/long_chu_yi/web--mining--cnki-practice/blob/master/WebMining_Final_ccLong.ipynb)
#  数据目标

在 CNKI 的专业检索中，可检索字段有：```SU=主题```、```TKA=篇关摘```、```KY=关键词```、```TI=篇名```、```FT=全文```、```AU=作者```等。

本项目设置了如下检索值：

```python 
query = 'SU = "平台" AND  (TI ="人工智能" OR  TI ="大数据"  OR TI = "AI" OR TI = "big data")'
```

本项目主要抓取 **“平台”为主题，以“人工智能（AI）”或“大数据（Big Data）”为篇名** 的相关学术期刊文章。

**人工智能**与**大数据**作为前沿的技术，其发展推动着人类生产与生活的变迁。而**平台**也是正在改变世界的崭新商业模式。抓取**平台**、**人工智能**与**大数据**相关文章，可以帮助我们了解三者怎样有机结合、如何相互促进发展和变化，并对其发展状况和趋势进行分析。
# 数据结果描述：
- 检索文章篇目为1561篇，共32页，每页50篇，通过VOSviewer对文献refworks进行可视化分析。以下是分析图像，从可视化图中就可以看出，因检索关键词为“大数据”以及“人工智能”，所以衍生出与“大数据”相关的“大数据分析”、“信息化”等话题；与“人工智能”相关的“数据挖掘”、“深度学习”等话题。
![](https://gitee.com/long_chu_yi/web--mining--cnki-practice/raw/master/%E5%8F%AF%E8%A7%86%E5%8C%96%E5%9B%BE%E7%89%87.png)


# 总结：
- 数据挖掘课程是一个知识实用性很强的课程，在学习大数据课程后，深知数据的价值，利用挖掘出的数据进行分析，可以做许多有意义的研究。
# 心得感谢：
- 在ddl截止的前两天，因为整理电脑文件导致所有信息都对不上，anaconda服务器直接无法运行，还好老师当时上课讲解耐心，让我能够记得如何配置。完成过程中代码运行也一直报错，很感谢黄子轩和刘洁明两位同学的帮助，以及在各网站获取的信息，得以完成。
- 感谢许智超老师的精彩课程。 

参考网址：
[VOSviewer：共现网络分析与可视化](https://www.jianshu.com/p/c1859e8e5937) 、
[知网](https://cnki.net)