# OKReptile **Repository Path**: saoyun/OKReptile ## Basic Information - **Project Name**: OKReptile - **Description**: 一个简单、可扩展的爬虫。 - **Primary Language**: Java - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2018-09-15 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # OKReptile #### 项目介绍 这是一个简单,可扩展的爬虫。 #### 软件架构 使用java编写,包括五个模块--url管理器、html下载器、html解析器、数据存储器、爬虫调度器。第三方包使用了google的guava和解析html的jsoup。 同时,《python爬虫开发与实战项目》一书给我提供了思路,感谢一切! #### 简单介绍 1、支持配置文件、Builder模式来初始化一些配置,看你个人喜好。 2、如需爬取其他网页,只需重写url管理器、html解析器、数据存储器,并分别继承本项目提供默认的UrlManager.java、 DefaultHtmlParser.java、DefaultDataWriter.java这三个类。 3、当然,一切随你而变<不过,java真的很啰嗦 ^-^>。