# cnki_lr_crawler **Repository Path**: fangyebing/cnki_lr_crawler ## Basic Information - **Project Name**: cnki_lr_crawler - **Description**: 用于爬取中国知网文献 - **Primary Language**: Unknown - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 2 - **Created**: 2025-12-26 - **Last Updated**: 2025-12-26 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## 项目名称:知网文献爬取与文献综述生成 ### 项目简介 本项目使用Python的Selenium库爬取中国知网(CNKI)中与特定主题相关的文献,并自动生成文献综述。该工具可以帮助研究人员快速获取文献数据,提升文献调研的效率。 ### 功能 - 根据用户指定的关键词在知网上进行文献检索。 - 提取文献的标题、摘要、作者单位等信息。 - 将提取到的信息整理成Excel文件,便于后续分析和整理。 - 支持将多个文献数据合并成一个综述文件。 ### 依赖 - Python 3.x - Selenium - pandas - openpyxl ### 安装 1. 安装Python 3.x 2. 使用以下命令安装依赖库[ 3. 确保安装适合您浏览器的WebDriver(如Edge WebDriver) ### 使用说明 1. **修改搜索关键词**: - 在脚本中找到 `search_key` 变量,您可以根据研究需要修改关键词。例如: ```python search_key = 'ESG 绿色转型' ``` - 这一步非常重要,因为它直接影响爬取的文献相关性。 2. **运行主脚本**: - 使用终端或命令提示符导航到脚本所在的目录,然后输入以下命令来运行爬取程序: ```bash python your_script.py ``` - 替换 `your_script.py` 为实际的脚本文件名。 3. **查看生成的Excel文件**: - 脚本执行完成后,会在指定目录下生成几个Excel文件: - **`abstract.xlsx`**:包含文献的标题、摘要和作者单位,便于快速了解每篇文献的核心内容。 - **`info.xlsx`**:列出文献的标题、作者、期刊及发表时间,有助于进一步的文献管理。 - **`LR_INFO.xlsx`**:将前两者合并,方便研究人员获取综合信息。 ### 注意事项 - **网络连接**: - 确保您的网络连接稳定,以便顺利访问知网。网络不稳定可能导致爬取失败或中断。 - **遵守使用政策**: - 知网有其特定的使用政策,请确保您在使用爬取工具时遵循相关规定,避免发送过于频繁的请求,以防被封禁或限制访问。 ### 贡献 - 欢迎大家提交问题和建议,帮助改进项目。如果您有新功能的想法或发现了bug,欢迎在项目中提出。 - 如果您有能力,也可以直接贡献代码,使工具更加完善。 ### 联系方式 - 如有任何问题或需要进一步的支持,请联系 [allenmeng97@gmail.com]。提供具体问题描述可以帮助更快得到解答。