# spiderutils **Repository Path**: linxiaofei/spiderutils ## Basic Information - **Project Name**: spiderutils - **Description**: spiderutils是一个由java语言编写的爬取漫画或者小说的工具,它可以将爬下来的资源保持原有的章节顺序,并根据资源的相对路径生成对应的html文件和目录文件。 - **Primary Language**: Java - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-12-21 - **Last Updated**: 2021-11-02 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # spiderutils #### 介绍 spiderutils是一个由java语言编写的爬取漫画或者小说的工具,它可以将爬下来的资源保持原有的章节顺序,并根据资源的相对路径生成对应的html文件和目录文件。 #### 软件架构 软件架构说明 (Jdk15.0.1)or Jdk 1.8_201,推荐jdk14或者jdk15 #### 使用说明 1. 对于漫画爬虫,你只需要在comic.crack.Impl包下创建一个实现CrackComic接口的类,实现里面的三个方法getChapterList()、getImageList()、getCatalogueUrl(),然后调用spiderAsHtml()方法即可。getChapterList()是获取章节的信息,包括每个章节的标题和链接、getImageList()是获取目标章节网页的每个图片链接、getCatalogueUrl()是获取资源的目录链接和资源名。对于大多数无cookie漫画网站来说,实现这三个方法,通用,当然,如果这些都不符合你的需求,你也可以重写接口内的很多默认方法。程序会在当前文件夹下生成一个comic文件,里面由一个html子目录用来保存html文件,images子文件夹用来保存image图片,支持断点续爬,如果第一次未爬取完,程序会根据之前的记录文件,再下一次启动程序的时候继续爬取之前未下载的资源,对应的impl包下有个例子。 2. 对于小说爬虫,你需要在fiction.spider.impl包下创建一个实现FictionSpider接口的实现类,需要重写几个方法,然后调用spiderAsHtmlOrTxt()方法即可,对应的impl包下有个例子。