# spiderutils

**Repository Path**: linxiaofei/spiderutils

## Basic Information

- **Project Name**: spiderutils
- **Description**: spiderutils是一个由java语言编写的爬取漫画或者小说的工具，它可以将爬下来的资源保持原有的章节顺序，并根据资源的相对路径生成对应的html文件和目录文件。
- **Primary Language**: Java
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2020-12-21
- **Last Updated**: 2021-11-02

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# spiderutils

#### 介绍
spiderutils是一个由java语言编写的爬取漫画或者小说的工具，它可以将爬下来的资源保持原有的章节顺序，并根据资源的相对路径生成对应的html文件和目录文件。

#### 软件架构
软件架构说明
（Jdk15.0.1）or Jdk 1.8_201，推荐jdk14或者jdk15

#### 使用说明

1.  对于漫画爬虫，你只需要在comic.crack.Impl包下创建一个实现CrackComic接口的类，实现里面的三个方法getChapterList()、getImageList()、getCatalogueUrl()，然后调用spiderAsHtml()方法即可。getChapterList()是获取章节的信息，包括每个章节的标题和链接、getImageList()是获取目标章节网页的每个图片链接、getCatalogueUrl()是获取资源的目录链接和资源名。对于大多数无cookie漫画网站来说，实现这三个方法，通用，当然，如果这些都不符合你的需求，你也可以重写接口内的很多默认方法。程序会在当前文件夹下生成一个comic文件，里面由一个html子目录用来保存html文件，images子文件夹用来保存image图片，支持断点续爬，如果第一次未爬取完，程序会根据之前的记录文件，再下一次启动程序的时候继续爬取之前未下载的资源，对应的impl包下有个例子。
2.  对于小说爬虫，你需要在fiction.spider.impl包下创建一个实现FictionSpider接口的实现类，需要重写几个方法，然后调用spiderAsHtmlOrTxt()方法即可，对应的impl包下有个例子。