# scrapy-douban-group

**Repository Path**: mktime/scrapy-douban-group

## Basic Information

- **Project Name**: scrapy-douban-group
- **Description**: 通过一个实际的项目，来学习如何使用scrapy爬取网络上的信息。这里以豆瓣小组为例，对组内的图片进行爬取，相关信息保存数据到MongoDB，图片下载到本地。
- **Primary Language**: Python
- **License**: MIT
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 359
- **Forks**: 139
- **Created**: 2015-03-19
- **Last Updated**: 2026-04-09

## Categories & Tags

**Categories**: spider

**Tags**: None

## README

douban_scrapy
===========


环境准备
--------

* [Scrapy] (http://scrapy.org/) 
* [MongoDB] (https://www.mongodb.org/) 


快速开始
--------

    #: 安装必要 python 库

    sudo pip install scrapy

    sudo pip install pymongo

    #: 下载图片到本地,并且保存相关信息到MongoDB中.

    scrapy crawl demo

    #: 生成本地相册需要的json data.

    python check.py

    #: 建立本地http server

    python -m SimpleHTTPServer 80
    
    #: 打开浏览器输入http://localhost/gallary


已实现的功能
--------

* 爬取大家的发贴信息(标题、标题URL、作者、作者URL等)，以及下载图片到本地
* 爬取用户地理位置信息
* 增加RandomUserAgent功能,防止被BAN
* 增加延时抓取功能，防止被BAN
* 由于下载图片较多，故采用hash方法分散到多个目录进行管理，提高打开文件夹速度


计划实现的功能
--------

* 本地相册功能打算借鉴(fgallery)[http://www.thregr.org/~wavexx/software/fgallery/demo/]


更多
-----

* [提交建议，需求，Bug报告](http://git.oschina.net/mktime/scrapy-douban-group/issues)  
* [Fork Me](http://git.oschina.net/mktime/scrapy-douban-group/fork)