esay

介绍

基于webmagic的通用爬虫抓取应用，核心在于简单易用，搭建好后轻松抓取数据

在线演示地址

在线演示地址: http://easycrawl.lomoye.top/ (在线演示地址第一次打开有点慢，请耐心等待)

教程文档

教程文档地址: http://blog.lomoye.top/index.php/archives/15/

前端代码

https://gitee.com/mountFuji/easy-crawl-front

近期想要做的大方向

爬取需要登录的页面
- 需要支持会话过期自动重新登录
接口型数据爬取（这种前后端分离的不用爬页面，直接根据接口规则来获取数据）
爬取的字段增加属性分类，比如图片（链接）、文字、视频（链接）
- 有了分类以后，比如图片，在页面上就可以根据这个属性直接显示出来图片
- 图片、视频可提供下载任务
定时爬取
js动态渲染的数据爬取
防封号策略丰富、比如加入user-Agent池

软件架构

软件架构说明

基于springboot实现
爬虫框架使用的是webmagic
数据库默认的是h2，配置文件在application.yml，如果想切换成mysql，请参考分支useMysql里的application.yml配置

安装教程

EasyApplication 启动入口
浏览器打开localhost:8080
详细使用方式请看文档 http://blog.lomoye.top/index.php/archives/15/

使用说明

基本流程
1. EasyApplication 启动入口
2. 打开 localhost:8080
3. 新建爬虫(默认会导入两个爬虫示例)
4. 运行
5. 查看任务

联系方式

微信： yezhangjun001
QQ: 834033206

FAQ

如何查看数据库数据：默认是使用嵌入式的h2数据库，可以用浏览器打开http://localhost:8080/h2-console登录, 默认用户名root，默认密码test
如何替换数据源: 默认是使用嵌入式的h2数据库，如果想替换成mysql，请在application.yml中更改数据源配置

页面预览

avatar avatar avatar avatar avatar

参与贡献

Fork 本仓库
新建 Feat_xxx 分支
提交代码
新建 Pull Request

待优化

1.字段长度有些可能偏长，现在默认最多存储255个字节，应该提供用户选择字段长度 2.可以定义字段的类型，比如图片链接，这样在显示的时候可以直接根据图片属性显示出图片

待修复的bug

已修复的bug

1.解决豆瓣爬取报403的问题，403不是因为豆瓣防爬，而是因为0.7.3版本的webmagic的SSL协议只支持TLSv1.0，自己重写了逻辑，可以支持TLSv1.2

码云特技

使用 Readme_XXX.md 来支持不同的语言，例如 Readme_en.md, Readme_zh.md
码云官方博客 blog.gitee.com
你可以 https://gitee.com/explore 这个地址来了解码云上的优秀开源项目
GVP 全称是码云最有价值开源项目，是码云综合评定出的优秀开源项目
码云官方提供的使用手册 https://gitee.com/help
码云封面人物是一档用来展示码云会员风采的栏目 https://gitee.com/gitee-stars/

Lanminy / easycrawl

esay

介绍

在线演示地址

教程文档

前端代码

近期想要做的大方向

软件架构

安装教程

使用说明

联系方式

FAQ

页面预览

参与贡献

最近待修复问题

最近完成功能

待优化

待修复的bug

已修复的bug

码云特技

简介

发行版

贡献者

近期动态

Lanminy / easycrawl .gitee-modal { width: 500px !important; }

esay

介绍

在线演示地址

教程文档

前端代码

近期想要做的大方向

软件架构

安装教程

使用说明

联系方式

FAQ

页面预览

参与贡献

最近待修复问题

最近完成功能

待优化

待修复的bug

已修复的bug

码云特技

简介

发行版

贡献者

近期动态

搜索帮助

Lanminy / easycrawl