# gitbook **Repository Path**: TigerPower/gitbook ## Basic Information - **Project Name**: gitbook - **Description**: 技术资料库 - **Primary Language**: Java - **License**: Not specified - **Default Branch**: develop - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-07-02 - **Last Updated**: 2025-07-18 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 企业信息爬虫脚本 这是一个用于爬取企业信息的Python脚本,支持从天眼查和企查查获取企业基本信息。 ## 功能特点 - 支持从天眼查和企查查两个平台查询企业信息 - 自动处理查询失败的情况,优先使用天眼查,失败时自动切换到企查查 - 提取企业名称、当前状态、法人、地址、风险信息、股东信息 - 支持批量处理Excel文件中的企业识别号 - 输出CSV格式的结果文件 - 完整的日志记录和错误处理 ## 安装依赖 1. 确保已安装Python 3.7+ 2. 安装Chrome浏览器 3. 下载ChromeDriver并添加到系统PATH 4. 安装Python依赖包: ```bash pip install -r requirements.txt ``` ## 使用方法 1. 准备Excel文件,第一列包含企业识别号(统一社会信用代码),列头为"企业识别号" 2. 运行脚本: ```bash python enterprise_crawler.py ``` 3. 根据提示输入Excel文件路径 4. 等待查询完成,结果将保存为CSV文件 ## 输出格式 生成的CSV文件包含以下列: - 企业识别号 - 企业名称 - 当前状态 - 法人 - 地址 - 风险信息 - 股东信息 - 查询状态 ## 注意事项 1. 请确保网络连接正常 2. 脚本会自动处理反爬虫机制,包括随机延时和User-Agent轮换 3. 查询失败的企业会被跳过,并在结果中标记为"失败" 4. 建议在非高峰期使用,避免被网站限制访问 ## 文件说明 - `enterprise_crawler.py`: 主脚本文件 - `requirements.txt`: Python依赖包列表 - `crawler.log`: 运行日志文件 - `企业信息查询结果_时间戳.csv`: 输出结果文件 ## 技术实现 - 使用Selenium WebDriver模拟浏览器操作 - 支持Chrome浏览器 - 实现反反爬虫策略 - 异常处理和重试机制 - 数据清洗和格式化 ## 免责声明 本脚本仅供学习和研究使用,请遵守相关网站的使用条款和robots.txt协议。使用者需自行承担使用风险。