# weibo_spider

**Repository Path**: null_386_9385/weibo_spider

## Basic Information

- **Project Name**: weibo_spider
- **Description**: 微博爬虫，爬去微博语料，情感分析，user-agent池，充足IP，scrapy，mongodb
- **Primary Language**: Python
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 2
- **Created**: 2020-06-04
- **Last Updated**: 2020-12-19

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# WeiboSpider
This is a sina weibo spider built by scrapy

## Update 2018/7/28

**戳这里：[微博爬虫，单机每日千万级的数据 && 吐血整理的微博爬虫总结](https://blog.csdn.net/nghuyong/article/details/81251948)**

## Update 2018/7/27
这个爬虫一开始是需要登陆获得微博cookie的，然后再运行爬虫

如果你的账号是买的，微博判定不是正常账号，会出现滑动宫格验证码，本项目中获取cookie的方案就不适用了，
具体可以参考[这篇文章](https://juejin.im/post/5acf0ffcf265da23826e5e20)

如果需要构建大规模的微博抓取系统，在本项目的基础上**仅仅**需要做的就是，**购买大量微博账号，维护一个账号池**

购买微博账号的地址是[这里](http://www.xiaohao.shop/)，访问需要翻墙。

![](http://wx3.sinaimg.cn/mw690/006Ueclxly1ftoh9t49z3j31jw0ie77z.jpg)

目前我自己维护了一个200+个账号的账号池，并通过redis构建分布式，抓取效果如上图，**一分钟可以抓取8000左右的数据，一天数据采集量在1100万**

这个账号池，我也是花钱买的，就不Share了。

如果确实有抓取数据的需要，可以联系我，Email：nghuyong@163.com

## 使用本项目
Python版本:Python3.6
```bash
git clone https://github.com/SimpleBrightMan/WeiboSpider.git
# 首先获取cookie，并存入数据库中
python cookies.py
# 然后运行爬虫
python run.py
```