# 微信公众号爬虫开发 **Repository Path**: yualan2077/wechatScraping ## Basic Information - **Project Name**: 微信公众号爬虫开发 - **Description**: 对某一微信公众号历史所有文章进行批量爬取的一种解决方案 - **Primary Language**: Python - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 2 - **Created**: 2025-03-26 - **Last Updated**: 2025-05-27 ## Categories & Tags **Categories**: Uncategorized **Tags**: E-class ## README # 🚀微信公众号爬虫开发 #### 📖介绍 对某一微信公众号历史所有文章进行批量爬取的一种解决方案 #### 架构 程序分为两个部分,get_URL文件负责批量抓取所有公众号历史文章的URL get_detailed会对每个公众号进行截图,截图会保存在screenshot文件夹,同时保存相对路径 同时OCR识别截图并结构化保存数据 提供长大就业公众号历史文章的数据输出样例 对于两个程序的详细介绍会在分支readme文件中补充 #### 环境配置 📌 ChromeDriver 配置完整指南 由于 ChromeDriver 版本与 Google Chrome 浏览器 需要匹配,且不同操作系统(Windows/macOS/Linux)的安装方式不同,我们需要详细讲解 如何安装、配置和在代码中修改 ChromeDriver 路径。 📌 什么是 ChromeDriver? • ChromeDriver 是 Selenium 控制 Google Chrome 所需的驱动程序。 • 你必须确保 ChromeDriver 版本 和 Google Chrome 版本 一致,否则可能会报错 SessionNotCreatedException。 📌 Windows & macOS 的安装方法 1️⃣ 检查 Chrome 版本 在安装 ChromeDriver 之前,先检查你的 Google Chrome 版本: • Windows: 在 Chrome 地址栏输入: chrome://version/ 你会看到类似: Google Chrome 版本 123.0.6312.86 • macOS: /Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome --version 2️⃣ 下载 ChromeDriver //windows: 直接使用 webdriver-manager 自动安装适配版本:pip install webdriver-manager //mac: 在终端使用 brew install chromedriver 查找自己的chromdriver路径,后续修改代码: //windows: where chromedriver //mac: which chromedriver 对于其他python依赖包 执行 pip install -r requirements.txt 来配置