# DouBanSpider **Repository Path**: cix/DouBanSpider ## Basic Information - **Project Name**: DouBanSpider - **Description**: 使用 scrapy 编写的豆瓣图书爬虫,可以爬取豆瓣全站的图书信息然后保存到 MongoDB 数据库中。 - **Primary Language**: Python - **License**: GPL-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 2 - **Forks**: 0 - **Created**: 2018-09-15 - **Last Updated**: 2022-04-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: Python, Spider ## README # DouBanSpider #### 项目介绍 使用 scrapy 编写的豆瓣图书爬虫,可以爬取豆瓣全站的图书信息然后保存到 MongoDB 数据库中。 #### 软件架构 爬虫:scrapy 框架 数据存储:MongoDB 数据库 #### 安装教程 1. 安装 scrapy 模块 https://scrapy.org 2. 安装 MongoDB 数据库 https://www.mongodb.com #### 使用说明 1. 下载项目 git clone https://gitee.com/cix/DouBanSpider 2. 项目配置 在 settings.py 文件下设置豆瓣的用户名和密码 ![输入图片说明](https://images.gitee.com/uploads/images/2018/0915/085626_fea98a7b_1577043.png "Snip20180915_47.png") 在 MongoDB 数据库中创建对应的库 ![输入图片说明](https://images.gitee.com/uploads/images/2018/0915/085921_6ca1fe63_1577043.png "Snip20180915_49.png") 3. 进入项目文件夹 cd DouBanSpider/ 4. 执行项目 scrapy crawl douban 5. 验证码 模拟登陆次数增多后便需要输入验证码,在项目的根目录下有个名为 captcha_image.jpg 的图片文件 ![输入图片说明](https://images.gitee.com/uploads/images/2018/0915/090711_851b5597_1577043.png "Snip20180915_51.png") 6. 最终效果 ![输入图片说明](https://images.gitee.com/uploads/images/2018/0915/090033_c75d6934_1577043.png "Snip20180915_44.png")