# swallowSinaBlog

**Repository Path**: third_org/swallow

## Basic Information

- **Project Name**: swallowSinaBlog
- **Description**: 新浪博客内容爬取
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 1
- **Created**: 2018-09-25
- **Last Updated**: 2020-12-19

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

swallow
====

高校学术活动内容爬取爬虫

Install
====

1. mysql导入，sql文件位于swallow/project_files/swallow.sql
2. 数据库配置：swallow/pipelines.py
3. redis的安装和配置

Run
====
* scrapy crawl [学校域名]
* exp. scrapy crawl sdu

comment
====
* 实现了部分学校学术活动抓取
* 未详细处理内部的内容，有需要可以自行清晰过滤相关数据
* 图片存储storage/images目录，按学校名归类
* 去重以标题为基准