# cnki_lr_crawler

**Repository Path**: fangyebing/cnki_lr_crawler

## Basic Information

- **Project Name**: cnki_lr_crawler
- **Description**: 用于爬取中国知网文献
- **Primary Language**: Unknown
- **License**: MIT
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 2
- **Created**: 2025-12-26
- **Last Updated**: 2025-12-26

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

## 项目名称：知网文献爬取与文献综述生成

### 项目简介
本项目使用Python的Selenium库爬取中国知网（CNKI）中与特定主题相关的文献，并自动生成文献综述。该工具可以帮助研究人员快速获取文献数据，提升文献调研的效率。

### 功能
- 根据用户指定的关键词在知网上进行文献检索。
- 提取文献的标题、摘要、作者单位等信息。
- 将提取到的信息整理成Excel文件，便于后续分析和整理。
- 支持将多个文献数据合并成一个综述文件。

### 依赖
- Python 3.x
- Selenium
- pandas
- openpyxl

### 安装
1. 安装Python 3.x
2. 使用以下命令安装依赖库[
3. 确保安装适合您浏览器的WebDriver（如Edge WebDriver）


### 使用说明

1. **修改搜索关键词**：
   - 在脚本中找到 `search_key` 变量，您可以根据研究需要修改关键词。例如：
     ```python
     search_key = 'ESG 绿色转型'
     ```
   - 这一步非常重要，因为它直接影响爬取的文献相关性。

2. **运行主脚本**：
   - 使用终端或命令提示符导航到脚本所在的目录，然后输入以下命令来运行爬取程序：
     ```bash
     python your_script.py
     ```
   - 替换 `your_script.py` 为实际的脚本文件名。

3. **查看生成的Excel文件**：
   - 脚本执行完成后，会在指定目录下生成几个Excel文件：
     - **`abstract.xlsx`**：包含文献的标题、摘要和作者单位，便于快速了解每篇文献的核心内容。
     - **`info.xlsx`**：列出文献的标题、作者、期刊及发表时间，有助于进一步的文献管理。
     - **`LR_INFO.xlsx`**：将前两者合并，方便研究人员获取综合信息。

### 注意事项

- **网络连接**：
  - 确保您的网络连接稳定，以便顺利访问知网。网络不稳定可能导致爬取失败或中断。

- **遵守使用政策**：
  - 知网有其特定的使用政策，请确保您在使用爬取工具时遵循相关规定，避免发送过于频繁的请求，以防被封禁或限制访问。

### 贡献

- 欢迎大家提交问题和建议，帮助改进项目。如果您有新功能的想法或发现了bug，欢迎在项目中提出。
- 如果您有能力，也可以直接贡献代码，使工具更加完善。

### 联系方式

- 如有任何问题或需要进一步的支持，请联系 [allenmeng97@gmail.com]。提供具体问题描述可以帮助更快得到解答。