# WeiboSpider **Repository Path**: fansan_admin/WeiboSpider ## Basic Information - **Project Name**: WeiboSpider - **Description**: sinaweibospider - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2017-07-28 - **Last Updated**: 2022-04-06 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 微博 GIF 爬虫程序 ## 爬虫功能 此项目主要用于从新浪微博网页中爬取目标用户带有 *gif* 的微博。(可按需求修改,爬取自己想要的内容) 爬取内容: 新建一个名为 **SinaWeibo** 的数据库。 Part1: 通过用户关键字搜索获取的内容,数据储存在表 **WeiboGIF** 中。 - ContentUrl: 带有 gif 的新浪微博 URL 地址 - PostTime: 微博的发送时间 - ContentId: 微博的唯一标识符 - RepostNum: 微博的转发数 - CommentNum: 微博的评论数 - Content: 微博的文本内容 - GIFUrl: gif 图片的 URL 地址 - LikeNum: 点赞数 - Comment: 微博评论内容 Part2: 通过微博关键字搜索获取的内容,数据储存在表 **WeiboKeyword** 中。 - Keyword: 微博关键字 - ContentUrl: 带有 gif 的新浪微博 URL 地址 - PostTime: 微博的发送时间 - ContentId: 微博的唯一标识符 - RepostNum: 微博的转发数 - CommentNum: 微博的评论数 - Content: 微博的文本内容 - GIFUrl: gif 图片的 URL 地址 - LikeNum: 点赞数 - Comment: 微博评论内容 ## 环境、架构 - 开发语言: python2.7 - 开发环境: OS X EI Capitan - 数据库: MongoDB 3.2.1 - 爬虫框架: Scrapy ## 部署环境 1. 安装 mongodb 2. 安装 Scrapy 软件库 3. python 模块: pymongo, requests, base64, urllib, re, time, datetime, json 4. 登陆微博的账号和密码置于 **cookies.py** 中 5. 用户搜索关键字置于 **startuser.py** 中 6. 微博搜索关键字置于 **startkeyword.py** 中 ## 执行程序 总共有三个需求,分别对应三个Python文件: **首先启动 MongoDB,然后切换到这三个文件所在的路径中,再根据需求执行相应的文件:** - 爬取用户所有微博: **RunTotalFiles.py** - 爬取用户每天新更新的微博: **RunDailyTask.py** - 爬取包含关键词的微博: **RunKeyword.py** - @author: fansan - @email: fansan@live.com