# 微信公众号爬虫开发

**Repository Path**: yualan2077/wechatScraping

## Basic Information

- **Project Name**: 微信公众号爬虫开发
- **Description**: 对某一微信公众号历史所有文章进行批量爬取的一种解决方案
- **Primary Language**: Python
- **License**: MIT
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 1
- **Forks**: 2
- **Created**: 2025-03-26
- **Last Updated**: 2025-05-27

## Categories & Tags

**Categories**: Uncategorized

**Tags**: E-class

## README

# 🚀微信公众号爬虫开发

#### 📖介绍
对某一微信公众号历史所有文章进行批量爬取的一种解决方案

#### 架构
程序分为两个部分，get_URL文件负责批量抓取所有公众号历史文章的URL
get_detailed会对每个公众号进行截图，截图会保存在screenshot文件夹，同时保存相对路径
同时OCR识别截图并结构化保存数据
提供长大就业公众号历史文章的数据输出样例
对于两个程序的详细介绍会在分支readme文件中补充



#### 环境配置
📌 ChromeDriver 配置完整指南

由于 ChromeDriver 版本与 Google Chrome 浏览器 需要匹配，且不同操作系统（Windows/macOS/Linux）的安装方式不同，我们需要详细讲解 如何安装、配置和在代码中修改 ChromeDriver 路径。

📌 什么是 ChromeDriver？ • ChromeDriver 是 Selenium 控制 Google Chrome 所需的驱动程序。 • 你必须确保 ChromeDriver 版本 和 Google Chrome 版本 一致，否则可能会报错 SessionNotCreatedException。

📌 Windows & macOS 的安装方法

1️⃣ 检查 Chrome 版本 在安装 ChromeDriver 之前，先检查你的 Google Chrome 版本： • Windows： 在 Chrome 地址栏输入： chrome://version/ 你会看到类似： Google Chrome 版本 123.0.6312.86 • macOS： /Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome --version

2️⃣ 下载 ChromeDriver

//windows： 直接使用 webdriver-manager 自动安装适配版本：pip install webdriver-manager //mac： 在终端使用 brew install chromedriver

查找自己的chromdriver路径，后续修改代码： //windows： where chromedriver  //mac： which chromedriver

对于其他python依赖包
执行
pip install -r requirements.txt
来配置