实战多种网站、电商数据爬虫。包含:淘宝商品、微信公众号、大众点评、招聘网站、闲鱼、阿里任务、scrapy博客园、微博、百度贴吧、豆瓣电影、包图网、全景网、豆瓣音乐、某省药监局、搜狐新闻、机器学习文本采集、fofa资产采集、汽车之家、国家统计局、百度关键词收录数、蜘蛛泛目录、今日头条、豆瓣影评️️️。微信爬虫展示项目:
新一代爬虫平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫。
蓝天采集器是一款开源免费的爬虫系统,仅需点选编辑规则即可采集数据,可运行在本地、虚拟主机或云服务器中,几乎能采集所有类型的网页,无缝对接各类CMS建站程序,免登录实时发布数据,全自动无需人工干预!是网页大数据采集软件中完全跨平台的云端爬虫系统
web spider build with puppeteer
一个Qt开发的可以替代爬虫的网页数据采集软件,它最重要的特点就是,降低了采集网页数据的门槛,由至少必须掌握一门编程语言降低到只要会操作电脑即可。
🔥 官方推荐 🔥 java爬虫工具,4.0重构版本,让你使用Java也能小巧而优雅的编写爬虫软件。多线程异步爬取网页也能那么简简单单;内置持久化接口,轻松定义爬取记录。
牛咖-neocrawler
nodejs 的爬虫系统。
特点:
支持web界面方式的摘取规则配置(css selector & regex);
包含无界面的浏览器引擎(phantomjs),支持js产生内容的抓取;
用http代理路由的方式防止抓取并发量过大的情况下被对方屏蔽;
nodejs none-block 异步环境下的抓取性能比较高;
中央调度器负责网址的调度(同一时间片内一定数量的抓取任务中根据网站的权重来决定派发任务量;
支持多种抓取实例并存,定制摘取引擎和存储方式。
晋江小说下载器 镜像自 https://github.com/fffonion/jjget
Go语言版本妹子图抓取爬虫,项目里用到很多go的语言特性。正所谓寄学习于娱乐,欣赏妹子的同时还可以学到东西,欢迎大家评鉴