Gecco 是一款用java语言开发的轻量化的易用的网络爬虫,整合了jsoup、httpclient、fastjson、spring、htmlunit、redission等优秀框架。
工程:StupidSpider 1服务端+n客户端协同作业网页爬虫功能说明:爬取任务表中的未执行的任务,爬取网页及包含主域名的所有子网页,解析网页中的所有手机号、邮箱地址、职称(讲师、副教授、教授、中级工程师、高级工程师)打包说明:maven直接打包成可运行jar文件。详细说明见others/00工程说明.txe
最近更新: 接近8年前Gecco 是一款用java语言开发的轻量化的易用的网络爬虫,整合了jsoup、httpclient、fastjson、spring、htmlunit、redission等优秀框架。
最近更新: 8年前