# myBookSpider

**Repository Path**: sundaygit/myBookSpider

## Basic Information

- **Project Name**: myBookSpider
- **Description**: 电子书爬虫
- **Primary Language**: Unknown
- **License**: GPL-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 1
- **Forks**: 0
- **Created**: 2020-01-13
- **Last Updated**: 2022-03-22

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# EPUB 电子书抓取爬虫 & 生成器

一个简单的电子书、网文爬虫，抓取结束后可自动生成标准 EPUB 格式电子书，可以放在 Kindle 等电纸书中，更方便阅读。同时内置了已完成的几个网站示例，便于使用者学习参考。

**注意** 本项目代码，仅供学习参考，不得在未授权时抓取任何内容，更不得将抓取完成后的不当内容分发或非法获利，请严格遵循各地法律法规！由使用本工程代码而引发的法律纠纷，与作者无关。

## 使用步骤

首先实例化一个网站爬虫，继承自 BookSpider 类

```python
from bookspider import BookSpider

class mySpider(BookSpider):
  def prepare(self):
      '准备工作实现'

  def book_name(self):
    return 'BookName'

  def sections(self):
    return [
        'url1',
        'url2',
        # ... ...
    ]

  def process_page(self, pos, url, page):
    return {
      'title': 'BookTitle',
      'body': b'Page Content', # use byte, not str/unicode.
    }
```

然后定义主程序流程
```python
def main():
  # 实例化爬虫
  b = mySpider()
  # 开始抓取
  b.crawl()
  # 生成 epub 格式电子书
  b.make_epub()


if __name__ == '__main__':
  main()
```

运行前可能需要安装依赖库，执行 `pip install -r requirements.txt` 即可.

最后在 book 目录下，可看到 BookName.epub，完成！

![](static/img/blank.png)

其他具体示例，可参考 zw49.py, coqzh.py, xbiquge.py 等，如无法满足具体需求，可直接修改 bookspider.py 文件.

## 补全模式

若某个章节单独下载失败，可在main中使用 `spider.fix_item()` 单独下载某个章节