# yuque-crawl-backend **Repository Path**: flanchanowo/yuque-crawl-backend ## Basic Information - **Project Name**: yuque-crawl-backend - **Description**: 语雀爬取器,下载文件为md - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2025-05-20 - **Last Updated**: 2026-02-27 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 语雀文档爬取器 ### 使用说明 1. 本爬虫用于爬取语雀文档的所有文档内容,包括文档标题、文档内容、文档链接等信息。 2. 本爬虫使用Python编写,使用requests库进行网络请求。 3. 本爬虫使用多线程进行爬取,提高爬取效率。 4. 本爬虫具有Flask Web界面,可以通过Web界面进行爬取操作。 ### 如何运行 1. 安装Python环境,安装相应依赖。 2. 运行`app.py`文件,启动Flask Web服务。 ### 核心思想 根据语雀知识库文档链接来获取该文档所在的知识库和文档的ID,然后根据知识库的ID来获取文档的内容或直接根据文档ID,配合**核心API接口**获取文档内容。\ 因为爬取知识库的文档是根据知识库ID来获取文档的内容,所以可以反向获取知识库的所有内容,包括文档的标题、文档的内容、文档的链接等信息。只要获取了知识库其中一个文档就可以获取知识库ID,从而获取到其它文档的ID并爬取整个知识库,这不需要你知道其它文档的ID是什么。\ **核心API接口**的地址(markdown数据来源):`https://www.yuque.com/api/docs/${doc_id}?book_id=${book_id}&merge_dynamic_data=false&mode=markdown` \ > `doc_id`:文档ID,通过知识库ID并配合核心API接口获取 \ > `book_id`:知识库ID,通过文档链接解析页面元素内容获取 示例:[https://www.yuque.com/api/docs/194750984?book_id=56879475&merge_dynamic_data=false&mode=markdown](https://www.yuque.com/api/docs/194750984?book_id=56879475&merge_dynamic_data=false&mode=markdown) ![img.png](asserts/img.png)