# G-Crawler **Repository Path**: peterm10g/G-Crawler ## Basic Information - **Project Name**: G-Crawler - **Description**: 核心框架:Webmagic Spring boot / / 任务调度:Spring + Quartz / 持久层框架:Spring jpa / 数据库连接池:Alibaba Druid 1.0 / 缓存框架:Redis ehcache /日志管理:SLF4J、Log4j2 / 前端框架: Bootstrap + Jquary - **Primary Language**: Unknown - **License**: LGPL-3.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 525 - **Created**: 2017-07-21 - **Last Updated**: 2021-06-21 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README G-Crawler 项目简介 项目目标 在力所能及的情况下,最大限度的提高 Web爬虫开发人员的生产力。 主要功能 基于WebMagic开发的完整的分布式爬虫框架,该框架特点如下: 1、完全分布式:由管理端(Admin)、调度端(Master)和多个Worker组成,各个组件通过Http协议通信。 2、完全配置化:通过Admin端的页面配置规则就可以爬取任何网站的数据,当然不同网站的难度不一样,会有不同的组件分别针对处理登录、验证码、封IP等问题。 3、可扩展的任务队列:任务队列由Redis实现,根据任务的状态有四种不同的任务队列:初始、执行中、成功、失败。您也可以扩展不同的任务调度算法,默认是公平调度。 4、可定义持久化方式:爬取结果中,属性数据默认持久化到MonogoDB,图片会被下载到文件服务器,当然您可以扩展更多的存储类型。 5、稳定和容错:任何一个爬虫任务都会重试和记录,只有任务真正成功了才会被移到成功队列,失败会有失败的原因描述。 技术选型 ● 核心框架:Webmagic Spring boot ● 任务调度:Spring + Quartz ● 持久层框架:Spring jpa ● 数据库连接池:Alibaba Druid 1.0 ● 缓存框架:Redis ehcache ● 日志管理:SLF4J、Log4j2 ● 前端框架: Bootstrap + Jquary 启动说明