# myBookSpider **Repository Path**: sundaygit/myBookSpider ## Basic Information - **Project Name**: myBookSpider - **Description**: 电子书爬虫 - **Primary Language**: Unknown - **License**: GPL-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2020-01-13 - **Last Updated**: 2022-03-22 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # EPUB 电子书抓取爬虫 & 生成器 一个简单的电子书、网文爬虫,抓取结束后可自动生成标准 EPUB 格式电子书,可以放在 Kindle 等电纸书中,更方便阅读。同时内置了已完成的几个网站示例,便于使用者学习参考。 **注意** 本项目代码,仅供学习参考,不得在未授权时抓取任何内容,更不得将抓取完成后的不当内容分发或非法获利,请严格遵循各地法律法规!由使用本工程代码而引发的法律纠纷,与作者无关。 ## 使用步骤 首先实例化一个网站爬虫,继承自 BookSpider 类 ```python from bookspider import BookSpider class mySpider(BookSpider): def prepare(self): '准备工作实现' def book_name(self): return 'BookName' def sections(self): return [ 'url1', 'url2', # ... ... ] def process_page(self, pos, url, page): return { 'title': 'BookTitle', 'body': b'Page Content', # use byte, not str/unicode. } ``` 然后定义主程序流程 ```python def main(): # 实例化爬虫 b = mySpider() # 开始抓取 b.crawl() # 生成 epub 格式电子书 b.make_epub() if __name__ == '__main__': main() ``` 运行前可能需要安装依赖库,执行 `pip install -r requirements.txt` 即可. 最后在 book 目录下,可看到 BookName.epub,完成! ![](static/img/blank.png) 其他具体示例,可参考 zw49.py, coqzh.py, xbiquge.py 等,如无法满足具体需求,可直接修改 bookspider.py 文件. ## 补全模式 若某个章节单独下载失败,可在main中使用 `spider.fix_item()` 单独下载某个章节