同步操作将从 MountFuji/easycrawl 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
基于webmagic的通用爬虫抓取应用,核心在于简单易用,搭建好后轻松抓取数据
在线演示地址: http://easycrawl.lomoye.top/ (在线演示地址第一次打开有点慢,请耐心等待)
教程文档地址: http://blog.lomoye.top/index.php/archives/15/
https://gitee.com/mountFuji/easy-crawl-front
爬取需要登录的页面
接口型数据爬取(这种前后端分离的不用爬页面,直接根据接口规则来获取数据)
爬取的字段增加属性分类,比如图片(链接)、文字、视频(链接)
定时爬取
js动态渲染的数据爬取
防封号策略丰富、比如加入user-Agent池
软件架构说明
如何查看数据库数据:默认是使用嵌入式的h2数据库,可以用浏览器打开http://localhost:8080/h2-console登录, 默认用户名root,默认密码test
如何替换数据源: 默认是使用嵌入式的h2数据库,如果想替换成mysql,请在application.yml中更改数据源配置
1.创建修改爬虫时增加爬虫字段的测试爬取功能
1.字段长度有些可能偏长,现在默认最多存储255个字节,应该提供用户选择字段长度 2.可以定义字段的类型,比如图片链接,这样在显示的时候可以直接根据图片属性显示出图片
1.解决豆瓣爬取报403的问题,403不是因为豆瓣防爬,而是因为0.7.3版本的webmagic的SSL协议只支持TLSv1.0,自己重写了逻辑,可以支持TLSv1.2
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。