# pachong **Repository Path**: SkyTree_NG/pachong ## Basic Information - **Project Name**: pachong - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-12-19 - **Last Updated**: 2025-12-22 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # MangaCopy 漫画爬虫 一个用于爬取 [拷贝漫画](https://www.mangacopy.com/) 网站漫画资源的 Python 爬虫工具。 ## 功能特性 - ✅ **流水线模式** - 边获取列表边下载,效率最高(推荐) - ✅ **全站爬取** - 一键爬取全站所有漫画 - ✅ **完整图片收集** - 使用 comicIndex/comicCount 精确控制滚动 - ✅ **多线程下载** - 图片并发下载(默认5线程) - ✅ **断点续传** - 自动跳过已下载的漫画/章节 - ✅ **浏览器自动恢复** - 崩溃自动重启,稳定运行 - ✅ 使用 undetected-chromedriver 绕过反爬检测 --- ## 🚀 快速开始 ### 前提条件 - Python 3.11+ - Google Chrome 浏览器 ### 1. 克隆项目 ```bash git clone https://gitee.com/SkyTree_NG/pachong.git cd pachong ``` ### 2. 创建虚拟环境 ```bash # Mac/Linux python3 -m venv venv source venv/bin/activate # Windows python -m venv venv venv\Scripts\activate ``` ### 3. 安装依赖 ```bash python3 -m pip install -r requirements.txt ``` ### 4. 开始使用 ```bash # 流水线模式爬取全站(推荐) python3 main.py --pipeline # 只爬取前10页测试 python3 main.py --pipeline --max-pages 10 ``` --- ## 使用方法 ### ⚡ 流水线模式(推荐) 边获取漫画列表边下载,无需等待全部列表,效率最高: ```bash # 全站爬取 python3 main.py --pipeline # 爬取前10页 python3 main.py --pipeline --max-pages 10 # 从第5页爬到第20页 python3 main.py --pipeline --start-page 5 --end-page 20 # 使用3个下载线程 python3 main.py --pipeline --workers 3 ``` ### 🚀 传统全站爬取 先获取完整列表,再逐个下载: ```bash # 爬取全站 python3 main.py --all --workers 5 # 只爬取前10页 python3 main.py --all --max-pages 10 --workers 5 ``` ### 📖 下载指定漫画 ```bash python3 main.py --manga "https://www.mangacopy.com/comic/dianjuren" # 只下载第1-10章 python3 main.py --manga "https://www.mangacopy.com/comic/dianjuren" --start 1 --end 10 ``` ### 📋 获取漫画列表 ```bash python3 main.py --list python3 main.py --list --max-pages 10 ``` ### ℹ️ 获取漫画信息 ```bash python3 main.py --info "https://www.mangacopy.com/comic/dianjuren" ``` ### 🔧 调试模式 显示浏览器窗口,方便调试: ```bash python3 main.py --pipeline --show-browser python3 main.py --manga "URL" --show-browser ``` --- ## 参数说明 | 参数 | 说明 | 示例 | |------|------|------| | `--pipeline` | 流水线模式(推荐) | `--pipeline` | | `--all` | 传统全站爬取模式 | `--all` | | `--manga URL` | 下载指定漫画 | `--manga "URL"` | | `--chapter URL` | 下载指定章节 | `--chapter "URL"` | | `--max-pages N` | 最多爬取N页 | `--max-pages 10` | | `--start-page N` | 从第N页开始 | `--start-page 5` | | `--end-page N` | 爬到第N页停止 | `--end-page 20` | | `--start N` | 从第N章开始 | `--start 1` | | `--end N` | 爬到第N章停止 | `--end 10` | | `--workers N` | 下载并发线程数 | `--workers 5` | | `--show-browser` | 显示浏览器窗口 | `--show-browser` | --- ## 配置 编辑 `config.py` 可修改配置: | 配置项 | 默认值 | 说明 | |--------|--------|------| | `PAGE_LOAD_DELAY` | 2秒 | 页面加载等待时间 | | `SCROLL_DELAY` | 0.3秒 | 滚动间隔 | | `REQUEST_DELAY` | 0.5秒 | 请求间隔 | | `MAX_WORKERS` | 3 | 默认并发数 | | `HEADLESS` | True | 无头模式 | --- ## 输出结构 ``` output/ ├── progress.json # 已完成的漫画记录(用于断点续传) ├── manga_list.txt # 全站漫画列表 ├── manga_list.json # JSON格式列表 ├── failed.txt # 失败记录 └── 电锯人/ ├── 第1话/ │ ├── 001.jpg │ ├── 002.webp │ └── ... └── ... ``` --- ## 注意事项 - ⚠️ **本工具仅供学习和个人使用,请尊重版权!** - 🔄 进度自动保存,按 `Ctrl+C` 可优雅停止,下次继续 - 🧹 如遇浏览器问题,运行 `pkill -9 -f chrome` 清理