# swallowSinaBlog **Repository Path**: third_org/swallow ## Basic Information - **Project Name**: swallowSinaBlog - **Description**: 新浪博客内容爬取 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2018-09-25 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README swallow ==== 高校学术活动内容爬取爬虫 Install ==== 1. mysql导入,sql文件位于swallow/project_files/swallow.sql 2. 数据库配置:swallow/pipelines.py 3. redis的安装和配置 Run ==== * scrapy crawl [学校域名] * exp. scrapy crawl sdu comment ==== * 实现了部分学校学术活动抓取 * 未详细处理内部的内容,有需要可以自行清晰过滤相关数据 * 图片存储storage/images目录,按学校名归类 * 去重以标题为基准