471 flashsword20 1578913802
webmagic 是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。
over 3 years ago 54 issues
117 l weiwei 1578913730
强力 Java 爬虫,列表分页、详细页分页、ajax、微内核高扩展、配置灵活
over 1 year ago 4 issues
117 l weiwei 1578913730
二代蜘蛛侠,此版本完全重新开发,比上一代更加强大(性能,易用,架构,分布式,简洁,成熟)
over 2 years ago 30 issues
429922 mail osc 1578923571
扒网站工具,看好哪个网站,指定好URL,自动扒下来做成模版。所见网站,皆可为我所用!
1 month ago 4 issues
400404 zhiyubujian 1578922729
489
风铃虫是一款轻量级的高效爬虫工具,配置简单,方便二次开发,能抓取js渲染的网页,可以抓取任何数据,支持保存网页快照,智能防封杀,天然适合分布式。
6 months ago 增加附带数据功能 updated on Oct 09 2 issues
493224 liinux 1596087533
484
专门用来解决爬虫采集相关网站数据时模拟自动登录,验证码自动识别的问题;欢迎加入一起开发完善。
over 1 year ago
1209195 coodyer 1604838347
313
一款URL网址采集工具。支持自定义采集规则以适配不同搜索引擎
over 1 year ago GoogleColl updated on Apr 24
275
zhihu-crawler是一个基于Java的爬虫实战项目,主要功能是抓取知乎用户的基本资料。
2 years ago
121703 javacoo 1578918498
209
丑牛迷你采集器是一款基于Java Swing开发的专业的网络数据采集/信息挖掘处理软件,通过灵活的配置,可以很轻松迅速地从 网页上抓取结构化的文本、图片、文件等资源信息,可编辑筛选处理后选择发布到网站
7 months ago 2 issues
454392 virjar 1578924389
205
适合抓取封堵的爬虫框架
2 years ago 0.3.0发布 updated on May 13
21346 smiledog 1578915376
181
一个基于Spring+SpringMVC+Mybatis+webmagic+extjs开发的段子图片抓取平台
over 5 years ago
157
一款低入侵分布式爬虫框架,仅仅依赖少量第三方包,具有多进程多线程,集成反爬、验证码破解方案,自由定制,cookie自动管理,多数据源支持(database,nosql,es),客户端-服务端分离(充分利用ip)集群支持等特性)
5 months ago MongooCrawlerV1.0.0公开测试版 updated on Sep 17
13122 fotomxq 1578914887
152
使用golang实现,采集各种网站妹子图库和本地类似数据的程序,浏览器可访问采集器和相关数据,可部署到服务器或本地直接运行。
over 4 years ago
23781 poet 1578915509
142
抓取微信公众号全部文章,采用AnyProxy+Javascript+Java实现
3 years ago 3 issues
1620924 yster 1596384649
141
一款小巧、灵活的Java多线程爬虫框架(AiPa)内嵌Jsoup 零成本上手
3 months ago

Search