# gitbook

**Repository Path**: TigerPower/gitbook

## Basic Information

- **Project Name**: gitbook
- **Description**: 技术资料库
- **Primary Language**: Java
- **License**: Not specified
- **Default Branch**: develop
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-07-02
- **Last Updated**: 2026-04-14

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 企业信息爬虫脚本

这是一个用于爬取企业信息的Python脚本，支持从天眼查和企查查获取企业基本信息。

## 功能特点

- 支持从天眼查和企查查两个平台查询企业信息
- 自动处理查询失败的情况，优先使用天眼查，失败时自动切换到企查查
- 提取企业名称、当前状态、法人、地址、风险信息、股东信息
- 支持批量处理Excel文件中的企业识别号
- 输出CSV格式的结果文件
- 完整的日志记录和错误处理

## 安装依赖

1. 确保已安装Python 3.7+
2. 安装Chrome浏览器
3. 下载ChromeDriver并添加到系统PATH
4. 安装Python依赖包：

```bash
pip install -r requirements.txt
```

## 使用方法

1. 准备Excel文件，第一列包含企业识别号（统一社会信用代码），列头为"企业识别号"

2. 运行脚本：

```bash
python enterprise_crawler.py
```

3. 根据提示输入Excel文件路径

4. 等待查询完成，结果将保存为CSV文件

## 输出格式

生成的CSV文件包含以下列：
- 企业识别号
- 企业名称
- 当前状态
- 法人
- 地址
- 风险信息
- 股东信息
- 查询状态

## 注意事项

1. 请确保网络连接正常
2. 脚本会自动处理反爬虫机制，包括随机延时和User-Agent轮换
3. 查询失败的企业会被跳过，并在结果中标记为"失败"
4. 建议在非高峰期使用，避免被网站限制访问

## 文件说明

- `enterprise_crawler.py`: 主脚本文件
- `requirements.txt`: Python依赖包列表
- `crawler.log`: 运行日志文件
- `企业信息查询结果_时间戳.csv`: 输出结果文件

## 技术实现

- 使用Selenium WebDriver模拟浏览器操作
- 支持Chrome浏览器
- 实现反反爬虫策略
- 异常处理和重试机制
- 数据清洗和格式化

## 免责声明

本脚本仅供学习和研究使用，请遵守相关网站的使用条款和robots.txt协议。使用者需自行承担使用风险。