# pachong

**Repository Path**: SkyTree_NG/pachong

## Basic Information

- **Project Name**: pachong
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-12-19
- **Last Updated**: 2025-12-22

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# MangaCopy 漫画爬虫

一个用于爬取 [拷贝漫画](https://www.mangacopy.com/) 网站漫画资源的 Python 爬虫工具。

## 功能特性

- ✅ **流水线模式** - 边获取列表边下载，效率最高（推荐）
- ✅ **全站爬取** - 一键爬取全站所有漫画
- ✅ **完整图片收集** - 使用 comicIndex/comicCount 精确控制滚动
- ✅ **多线程下载** - 图片并发下载（默认5线程）
- ✅ **断点续传** - 自动跳过已下载的漫画/章节
- ✅ **浏览器自动恢复** - 崩溃自动重启，稳定运行
- ✅ 使用 undetected-chromedriver 绕过反爬检测

---

## 🚀 快速开始

### 前提条件

- Python 3.11+
- Google Chrome 浏览器

### 1. 克隆项目

```bash
git clone https://gitee.com/SkyTree_NG/pachong.git
cd pachong
```

### 2. 创建虚拟环境

```bash
# Mac/Linux
python3 -m venv venv
source venv/bin/activate

# Windows
python -m venv venv
venv\Scripts\activate
```

### 3. 安装依赖

```bash
python3 -m pip install -r requirements.txt
```

### 4. 开始使用

```bash
# 流水线模式爬取全站（推荐）
python3 main.py --pipeline

# 只爬取前10页测试
python3 main.py --pipeline --max-pages 10
```

---

## 使用方法

### ⚡ 流水线模式（推荐）

边获取漫画列表边下载，无需等待全部列表，效率最高：

```bash
# 全站爬取
python3 main.py --pipeline

# 爬取前10页
python3 main.py --pipeline --max-pages 10

# 从第5页爬到第20页
python3 main.py --pipeline --start-page 5 --end-page 20

# 使用3个下载线程
python3 main.py --pipeline --workers 3
```

### 🚀 传统全站爬取

先获取完整列表，再逐个下载：

```bash
# 爬取全站
python3 main.py --all --workers 5

# 只爬取前10页
python3 main.py --all --max-pages 10 --workers 5
```

### 📖 下载指定漫画

```bash
python3 main.py --manga "https://www.mangacopy.com/comic/dianjuren"

# 只下载第1-10章
python3 main.py --manga "https://www.mangacopy.com/comic/dianjuren" --start 1 --end 10
```

### 📋 获取漫画列表

```bash
python3 main.py --list
python3 main.py --list --max-pages 10
```

### ℹ️ 获取漫画信息

```bash
python3 main.py --info "https://www.mangacopy.com/comic/dianjuren"
```

### 🔧 调试模式

显示浏览器窗口，方便调试：

```bash
python3 main.py --pipeline --show-browser
python3 main.py --manga "URL" --show-browser
```

---

## 参数说明

| 参数 | 说明 | 示例 |
|------|------|------|
| `--pipeline` | 流水线模式（推荐） | `--pipeline` |
| `--all` | 传统全站爬取模式 | `--all` |
| `--manga URL` | 下载指定漫画 | `--manga "URL"` |
| `--chapter URL` | 下载指定章节 | `--chapter "URL"` |
| `--max-pages N` | 最多爬取N页 | `--max-pages 10` |
| `--start-page N` | 从第N页开始 | `--start-page 5` |
| `--end-page N` | 爬到第N页停止 | `--end-page 20` |
| `--start N` | 从第N章开始 | `--start 1` |
| `--end N` | 爬到第N章停止 | `--end 10` |
| `--workers N` | 下载并发线程数 | `--workers 5` |
| `--show-browser` | 显示浏览器窗口 | `--show-browser` |

---

## 配置

编辑 `config.py` 可修改配置：

| 配置项 | 默认值 | 说明 |
|--------|--------|------|
| `PAGE_LOAD_DELAY` | 2秒 | 页面加载等待时间 |
| `SCROLL_DELAY` | 0.3秒 | 滚动间隔 |
| `REQUEST_DELAY` | 0.5秒 | 请求间隔 |
| `MAX_WORKERS` | 3 | 默认并发数 |
| `HEADLESS` | True | 无头模式 |

---

## 输出结构

```
output/
├── progress.json        # 已完成的漫画记录（用于断点续传）
├── manga_list.txt       # 全站漫画列表
├── manga_list.json      # JSON格式列表
├── failed.txt           # 失败记录
└── 电锯人/
    ├── 第1话/
    │   ├── 001.jpg
    │   ├── 002.webp
    │   └── ...
    └── ...
```

---

## 注意事项

- ⚠️ **本工具仅供学习和个人使用，请尊重版权！**
- 🔄 进度自动保存，按 `Ctrl+C` 可优雅停止，下次继续
- 🧹 如遇浏览器问题，运行 `pkill -9 -f chrome` 清理