# book-crawler **Repository Path**: shopboy/book-crawler ## Basic Information - **Project Name**: book-crawler - **Description**: No description available - **Primary Language**: Unknown - **License**: MIT - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2021-12-24 - **Last Updated**: 2021-12-24 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README #基于Go语言的小说下载器 ## 关于小说下载器 基于Go语言的小说下载器,使用kindle看小说爱好者,看腾讯视频的时候,一些动漫更新太慢,漫画也等到死都更新不完,所以经常直接去看小说,发现大部分情况下,都找不到mobi格式电子书下载,于是下载txt,通过`calibre` 转换为带目录的mobi格式。 由于市面上大部分小说都找不到txt下载, 或者txt章节不是最新,最开始还是想直接下载一个软件来实现小说的下载,下载了市面上2款软件,其中一款A软件为了收费一个1000章节的小说,下载了我一个多小时,最后还没内容页,折腾了我半天,另外一款B软件八爪鱼是不错,应该是没故意限速,可是对方定位不是小说下载,不支持导出为txt或mobi,于是有了动手写一个下载器的冲动。 ## 对于小说下载器要求 - [x] 适配市面上99%以上的小说网站 - [x] 要支持分割文件,记得曾经下过一部小说5000多章节,每次想跳过一章,kindle需要等2秒才响应过来,kindle 的配置还是太低了,必须支持分割为几部 - [x] 支持转换为带目录的mobi格式,这个虽然有类库,不过好多是小白,最终决定导出txt,通过`calibre` 转换为带目录的mobi格式。 - [x] 夸平台,支持liunx,window ,Mac - [x] 支持登陆vip采集,这个登陆网址后,设置下header授权(需要技术人员操作) - [ ] 采集代理ip,这个不难,暂时没考虑实现,主要是大家都是个人下载小说必要性不大 ## 默认支持平台 | 网站 | 是否支持最新章节 | 是否支持切分文件 | | ---------- | ---------------- | ---------------- | | 笔趣阁 | 支持 | 支持 | | 17k | 支持 | 支持 | | 顶点小说网 | 支持 | 支持 | | 简书 | 支持 | 支持 | | 晋江文学网 | 支持 | 支持 | > 目前简书支持暂时还未实现目录自动分页 ## 配置说明 配置思路:一般我们看到小说,都是打开目录,阅读内容,所以配置,首先我们要配置小说地址。我们的配置文件在config/app.ini, 采集的时候会读取 [books] 下面的配置,你可以在里面保留很多配置,目前保留就有以上网站的配置 ``` # 小说网址配置 笔趣阁 [books] url = https://www.biqiuge.com/book/69997443/ # 切分文件 splitFile = 2 # 列表页采集范围 selects = div[class=listmain] # 采集范围下面的url selectsUrl = dd>a # 内容页面需要的文字元素 contselect = div[class=showtxt] # 文件保存路径 path = /files/biqu.md ``` 只要把上面的内容填写正确,任何的列表跟内容的网址都可以采集到。 这类小说网址的规律,都是一个目录页面,一个内容页面,配置好目录页面,自动读取内容页面url,自动采集到本地文件txt,或md中,这个格式,可以由你的配置path决定 ## 使用程序 项目只需要下载可执行文件与config 文件夹,config 是配置小说网站的网站与节点 下载Linux版的程序 下载Mac版的程序 下载window版的程序 如果是想继续开发,可下载源码,否则只需要下载可执行文件即可 ## `calibre` 转换为mobi 教程地址:https://bookfere.com/post/82.html 这里不需要你处理txt 替换标题为### 在前面, 采集下来,自动给每个标题加了### ,只需要操作转换即可 ## 联系我 github isset