# Web_Mining_CNKI实践 **Repository Path**: long_chu_yi/web--mining--cnki-practice ## Basic Information - **Project Name**: Web_Mining_CNKI实践 - **Description**: 使用 Selenium 抓取 CNKI 数据 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 2 - **Forks**: 0 - **Created**: 2021-06-16 - **Last Updated**: 2024-12-26 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Web_Mining_CNKI实践 # web数据挖掘期末项目——爬取知网文章 # 前期准备 - 用selenium打开知网,校园网进入。 - 添加各种功能代码,如指定下载路径...... ```python import pandas as pd import numpy as np import time from requests_html import HTMLSession from lxml.html import fromstring from random import random from selenium import webdriver from selenium.webdriver.common.desired_capabilities import DesiredCapabilities from selenium.webdriver.support.wait import WebDriverWait from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.common.by import By from time import sleep import requests import time import hashlib import base64 import json import os from PIL import Image ``` ```python opts = webdriver.ChromeOptions() opts.add_argument('--no-sandbox')#解决DevToolsActivePort文件不存在的报错 opts.add_argument('window-size=1920x3000') #指定浏览器分辨率 opts.add_argument('--disable-gpu') #谷歌文档提到需要加上一这个属性来规避bug opts.add_argument('--hide-scrollbars') #隐藏滚动条, 应对些特殊页面 out_path = r'D:\数据挖掘pdf' # 是你想指定的路径 prefs = {'profile.default_content_settings.popups': 0, 'download.default_directory': out_path} opts.add_experimental_option('prefs', prefs) driver = webdriver.Chrome( chrome_options = opts) #desired_capabilities=caps, ``` ```python #进入知网 driver.get('https://cnki.net') ``` ```python element=driver.find_element_by_xpath('//*[@id="Ecp_loginShowName1"]') element.get_attribute('innerHTML') ``` 运行过程代码可以看[ipynb文档](https://gitee.com/long_chu_yi/web--mining--cnki-practice/blob/master/WebMining_Final_ccLong.ipynb) # 数据目标 在 CNKI 的专业检索中,可检索字段有:```SU=主题```、```TKA=篇关摘```、```KY=关键词```、```TI=篇名```、```FT=全文```、```AU=作者```等。 本项目设置了如下检索值: ```python query = 'SU = "平台" AND (TI ="人工智能" OR TI ="大数据" OR TI = "AI" OR TI = "big data")' ``` 本项目主要抓取 **“平台”为主题,以“人工智能(AI)”或“大数据(Big Data)”为篇名** 的相关学术期刊文章。 **人工智能**与**大数据**作为前沿的技术,其发展推动着人类生产与生活的变迁。而**平台**也是正在改变世界的崭新商业模式。抓取**平台**、**人工智能**与**大数据**相关文章,可以帮助我们了解三者怎样有机结合、如何相互促进发展和变化,并对其发展状况和趋势进行分析。 # 数据结果描述: - 检索文章篇目为1561篇,共32页,每页50篇,通过VOSviewer对文献refworks进行可视化分析。以下是分析图像,从可视化图中就可以看出,因检索关键词为“大数据”以及“人工智能”,所以衍生出与“大数据”相关的“大数据分析”、“信息化”等话题;与“人工智能”相关的“数据挖掘”、“深度学习”等话题。 ![](https://gitee.com/long_chu_yi/web--mining--cnki-practice/raw/master/%E5%8F%AF%E8%A7%86%E5%8C%96%E5%9B%BE%E7%89%87.png) # 总结: - 数据挖掘课程是一个知识实用性很强的课程,在学习大数据课程后,深知数据的价值,利用挖掘出的数据进行分析,可以做许多有意义的研究。 # 心得感谢: - 在ddl截止的前两天,因为整理电脑文件导致所有信息都对不上,anaconda服务器直接无法运行,还好老师当时上课讲解耐心,让我能够记得如何配置。完成过程中代码运行也一直报错,很感谢黄子轩和刘洁明两位同学的帮助,以及在各网站获取的信息,得以完成。 - 感谢许智超老师的精彩课程。 参考网址: [VOSviewer:共现网络分析与可视化](https://www.jianshu.com/p/c1859e8e5937) 、 [知网](https://cnki.net)