# Octopus **Repository Path**: rapid_framework/Octopus ## Basic Information - **Project Name**: Octopus - **Description**: Octopus是一款用java语言开发的网页数据爬虫。规范采集任务的流程,简化数据采集的开发工作。 - **Primary Language**: Java - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2020-07-10 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Octopus Octopus是一款用java语言开发的网页数据爬虫。规范采集任务的流程,简化数据采集的开发工作。 ## 主要特征 1. 简单易用,高度可扩展 2. 支持代理 3. 支持网页下载速率限制 ## 使用方法 1. 爬取豆瓣电影分类信息,详请请查看 `octopus-samples/douban` ```java new Builder() .threads(2) .rateLimit(2, TimeUnit.SECONDS) .parser( new DispatcherParser( new ParserMatcher(new RegexMatcher(".*/j/search_tags.*"), new TagsParser()), new ParserMatcher( new RegexMatcher(".*/j/search_subjects.*"), new SubjectsParser()))) .autoStop() .build() .start("https://movie.douban.com/j/search_tags?type=movie"); ``` 2. 爬取码云(Gitee)所有推荐项目信息,详请请查看 `octopus-samples/gitee` ```java Octopus octopus = new Octopus.Builder() .parser(new ProjectsParser()) .rateLimit(1, TimeUnit.SECONDS) .threads(1) .autoStop() .build(); octopus.start("https://gitee.com/explore/all"); ```