# qzone_output

**Repository Path**: dongjinlong123/qzone_output

## Basic Information

- **Project Name**: qzone_output
- **Description**: 将自己 QQ 空间的说说和日志**爬取到本地，整理为 Markdown 文件。
- **Primary Language**: Python
- **License**: MIT
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 1
- **Forks**: 0
- **Created**: 2026-03-16
- **Last Updated**: 2026-03-18

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# QQ空间备份工具

将自己 QQ 空间的**说说**和**日志**爬取到本地，整理为 Markdown 文件。

---

## 文件结构

```
├── qzone_crawler.py   # 主程序
├── get_cookie.py      # 辅助：自动获取登录Cookie（需要Chrome）
├── requirements.txt   # Python依赖
├── cookie.txt         # Cookie 存储文件（自动读取）
└── README.md          # 本文档
```

---

## 快速开始

### 第一步：安装依赖

```bash
pip install -r requirements.txt
```

### 第二步：获取 Cookie（二选一）

#### 方法 A：手动获取（推荐，无需安装Chrome驱动）

1. 用 Chrome 或 Edge 浏览器打开 `https://qzone.qq.com` 并登录
2. 按 `F12` 打开开发者工具 → 选择 `Network` 标签
3. 刷新页面，随便点一个请求，在 `Request Headers` 里找到 `Cookie: ...`
4. 复制整行 Cookie 的值

#### 方法 B：自动获取（需要 Chrome 浏览器）

```bash
pip install selenium webdriver-manager
python get_cookie.py 你的QQ号
```

登录成功后脚本会自动检测并保存 Cookie 到 `cookie.txt`。

---

### 第三步：运行爬虫

```bash
# 爬取说说和日志（自动读取 cookie.txt）
python qzone_crawler.py --qq 你的QQ号

# 通过命令行传入 Cookie
python qzone_crawler.py --qq 你的QQ号 --cookie "你复制的Cookie字符串"

# 从指定文件读取 Cookie
python qzone_crawler.py --qq 你的QQ号 --cookie-file my_cookie.txt

# 同时下载图片到本地
python qzone_crawler.py --qq 123456789 --images

# 只爬说说
python qzone_crawler.py --qq 123456789 --only mood

# 只爬日志
python qzone_crawler.py --qq 123456789 --only blog

# 指定输出目录
python qzone_crawler.py --qq 123456789 --output ~/Desktop/我的QQ空间
```

Cookie 读取优先级：`--cookie` 参数 > `--cookie-file` 指定文件 > 当前目录 `cookie.txt`

---

## 输出目录结构

```
qzone_output/
├── README.md              # 总索引（统计+目录）
├── 说说/
│   └── 2022/
│       ├── 2022-01.md     # 当月所有说说
│       └── 2022-03.md
├── 日志/
│   └── 2021/
│       ├── 2021-06/
│       │   ├── 我的旅行.md       # 每篇日志单独文件
│       │   └── 读书笔记.md
│       └── 2021-06-index.md     # 当月日志目录
└── images/
    ├── moods/             # 说说图片（--images 时下载）
    └── blogs/             # 日志图片（--images 时下载）
```

---

## 功能特性

- 自动分页爬取全部说说和日志
- 按年月归档，生成 Markdown 文件
- 可选下载图片到本地，自动替换为本地路径
- 请求失败自动重试（最多 3 次）
- 随机延迟防风控
- Cookie 失效自动检测提示
- 支持从文件自动读取 Cookie

---

## 注意事项

- 仅限爬取自己的空间，爬取他人空间可能违反 QQ 用户协议
- Cookie 有时效性（通常几天到几周），失效后需重新获取
- 爬取速度已做随机延迟，请勿修改为极短间隔，避免触发风控
- QQ空间 API 为非公开接口，腾讯可能随时更新，如遇失败请提 Issue
- 建议先小量测试（`--only mood`），确认可用再全量爬取

---

## 常见问题

**Q: 运行后提示"未找到 p_skey/skey"？**
A: Cookie 复制不完整，确保包含 `p_skey=` 或 `skey=` 字段。

**Q: 说说/日志列表为空？**
A: Cookie 已过期，重新获取；或检查 QQ 号是否填写正确。

**Q: 图片下载失败？**
A: 部分图片有防盗链，可忽略，正文链接仍会保留原始 URL。

**Q: 提示 Cookie 已失效（错误码 -3000）？**
A: 需要重新登录获取新的 Cookie，可以用 `get_cookie.py` 或手动获取。