1 Star 0 Fork 64

lvxing / easycrawl

forked from MountFuji / easycrawl 
加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
克隆/下载
README.en.md 2.97 KB
一键复制 编辑 原始数据 按行查看 历史

esay

介绍

基于webmagic的通用爬虫抓取应用,核心在于简单易用,搭建好后轻松抓取数据

在线演示地址

在线演示地址: http://easycrawl.lomoye.top/ (在线演示地址第一次打开有点慢,请耐心等待)

教程文档

教程文档地址: http://blog.lomoye.top/index.php/archives/15/

前端代码

https://gitee.com/mountFuji/easy-crawl-front

软件架构

软件架构说明

  • 基于springboot实现
  • 爬虫框架使用的是webmagic
  • 数据库默认的是h2,配置文件在application.yml,如果想切换成mysql,请参考分支useMysql里的application.yml配置

安装教程

  1. EasyApplication 启动入口
  2. 浏览器打开localhost:8080
  3. 详细使用方式请看文档 http://blog.lomoye.top/index.php/archives/15/

使用说明

  • 基本流程
    1. EasyApplication 启动入口
    2. 打开 localhost:8080
    3. 新建爬虫(默认会导入两个爬虫示例)
    4. 运行
    5. 查看任务

联系方式

  • 微信: yezhangjun001
  • QQ: 834033206

FAQ

  • 如何查看数据库数据:默认是使用嵌入式的h2数据库,可以用浏览器打开http://localhost:8080/h2-console登录, 默认用户名root,默认密码test

  • 如何替换数据源: 默认是使用嵌入式的h2数据库,如果想替换成mysql,请在application.yml中更改数据源配置

页面预览

avatar avatar avatar avatar avatar

参与贡献

  1. Fork 本仓库
  2. 新建 Feat_xxx 分支
  3. 提交代码
  4. 新建 Pull Request

最近待修复问题

1.爬虫默认示例豆瓣top250爬取报403,查明原因解决

最近完成功能

1.创建修改爬虫时增加爬虫字段的测试爬取功能

待修复的bug

已修复的bug

1.解决豆瓣爬取报403的问题,403不是因为豆瓣防爬,而是因为0.7.3版本的webmagic的SSL协议只支持TLSv1.0,自己重写了逻辑,可以支持TLSv1.2

码云特技

  1. 使用 Readme_XXX.md 来支持不同的语言,例如 Readme_en.md, Readme_zh.md
  2. 码云官方博客 blog.gitee.com
  3. 你可以 https://gitee.com/explore 这个地址来了解码云上的优秀开源项目
  4. GVP 全称是码云最有价值开源项目,是码云综合评定出的优秀开源项目
  5. 码云官方提供的使用手册 https://gitee.com/help
  6. 码云封面人物是一档用来展示码云会员风采的栏目 https://gitee.com/gitee-stars/
Java
1
https://gitee.com/lvxing15041261576/easycrawl.git
git@gitee.com:lvxing15041261576/easycrawl.git
lvxing15041261576
easycrawl
easycrawl
master

搜索帮助