# catclaw **Repository Path**: ospdz/catclaw ## Basic Information - **Project Name**: catclaw - **Description**: 简洁的多线程爬虫框架 - **Primary Language**: Java - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2018-11-02 - **Last Updated**: 2023-10-15 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## 项目介绍 简洁的多线程爬虫框架 ## 思路 1. 先有一个或多个具体的初始链接,假如说把这些初始链接的页面类型记为seed 2. 定义一个规则,规则主要由Jsoup选择器(类似于css选择器)、正则表达式、页面类型type组成,选择器一般定位到a标签。seed页面通过应用规则就可以自动获取标签中符合正则表达式的链接,这些链接就是下一层要爬取的链接,假如将这些链接所代表的页面记为page1(type设置成了page1) 3. 重复上一步,也是定义规则,唯一的区别就是应用这些规则的页面不是seed,而是page1页面。也就是说这些规则是有顺序的,除了第一个规则应用于seed页面之外,其余的每一个规则都是应用于上一个规则获取到的页面,以此类推,多少层都可以 4. 结合示例查看源代码能更快的理解 ## 示例及说明 见test代码示例