0 Star 0 Fork 1

ospdz/catclaw

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

项目介绍

简洁的多线程爬虫框架

思路

  1. 先有一个或多个具体的初始链接,假如说把这些初始链接的页面类型记为seed

  2. 定义一个规则,规则主要由Jsoup选择器(类似于css选择器)、正则表达式、页面类型type组成,选择器一般定位到a标签。seed页面通过应用规则就可以自动获取标签中符合正则表达式的链接,这些链接就是下一层要爬取的链接,假如将这些链接所代表的页面记为page1(type设置成了page1)

  3. 重复上一步,也是定义规则,唯一的区别就是应用这些规则的页面不是seed,而是page1页面。也就是说这些规则是有顺序的,除了第一个规则应用于seed页面之外,其余的每一个规则都是应用于上一个规则获取到的页面,以此类推,多少层都可以

  4. 结合示例查看源代码能更快的理解

示例及说明

见test代码示例

空文件

简介

简洁的多线程爬虫框架 展开 收起
Java
取消

发行版

暂无发行版

贡献者

全部

近期动态

不能加载更多了
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
Java
1
https://gitee.com/ospdz/catclaw.git
git@gitee.com:ospdz/catclaw.git
ospdz
catclaw
catclaw
master

搜索帮助

371d5123 14472233 46e8bd33 14472233