# GuozhongCrawler **Repository Path**: Ivan0626/GuozhongCrawler ## Basic Information - **Project Name**: GuozhongCrawler - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 52 - **Created**: 2015-08-16 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README guozhongCrawler的是一个无须配置、便于二次开发的爬虫开源框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。模块化设计完全面向业务提供接口,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试,定制执行js、自定义cookie等功能。在处理网站抓取多次后被封IP的问题上,guozhongCrawler采用动态轮换IP机制有效防止IP被封。另外,源码中的注释及Log输出全部采用通俗易懂的中文。让初学者能有更加深刻的理解 guozhongCrawler特性: 1、可轻松定制不同URL优先级,可完成更为复杂的遍历业务,例如分页、AJAX 2、直接支持多线程多代理并发抓取 3、支持多任务(CrawlerTask)执行 4、支持多个请求的事务处理 5、内置3大网页下载内核HttpClient、WebDriver、谷歌浏览器 6、集成jsoup、xpath解析器 7、支持文件下载 8、定制http请求post、get方式,模拟header,注入cookie、params等参数 9、日志输出及源码注解采用中文,适合中国开发者学习和使用 GuozhongCrawler基础教程地址: http://blog.csdn.net/u012572945/article/