# yuque-crawl-backend

**Repository Path**: flanchanowo/yuque-crawl-backend

## Basic Information

- **Project Name**: yuque-crawl-backend
- **Description**: 语雀爬取器，下载文件为md
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 1
- **Created**: 2025-05-20
- **Last Updated**: 2026-02-27

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 语雀文档爬取器
### 使用说明
1. 本爬虫用于爬取语雀文档的所有文档内容，包括文档标题、文档内容、文档链接等信息。
2. 本爬虫使用Python编写，使用requests库进行网络请求。
3. 本爬虫使用多线程进行爬取，提高爬取效率。
4. 本爬虫具有Flask Web界面，可以通过Web界面进行爬取操作。

### 如何运行
1. 安装Python环境，安装相应依赖。
2. 运行`app.py`文件，启动Flask Web服务。

### 核心思想
根据语雀知识库文档链接来获取该文档所在的知识库和文档的ID，然后根据知识库的ID来获取文档的内容或直接根据文档ID，配合**核心API接口**获取文档内容。\
因为爬取知识库的文档是根据知识库ID来获取文档的内容，所以可以反向获取知识库的所有内容，包括文档的标题、文档的内容、文档的链接等信息。只要获取了知识库其中一个文档就可以获取知识库ID，从而获取到其它文档的ID并爬取整个知识库，这不需要你知道其它文档的ID是什么。\
**核心API接口**的地址（markdown数据来源）：`https://www.yuque.com/api/docs/${doc_id}?book_id=${book_id}&merge_dynamic_data=false&mode=markdown` \

> `doc_id`：文档ID，通过知识库ID并配合核心API接口获取 \
> `book_id`：知识库ID，通过文档链接解析页面元素内容获取

示例：[https://www.yuque.com/api/docs/194750984?book_id=56879475&merge_dynamic_data=false&mode=markdown](https://www.yuque.com/api/docs/194750984?book_id=56879475&merge_dynamic_data=false&mode=markdown)
![img.png](asserts/img.png)