# crawler

**Repository Path**: same_heart/crawler

## Basic Information

- **Project Name**: crawler
- **Description**: 一些爬虫demo
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 1
- **Forks**: 0
- **Created**: 2020-08-04
- **Last Updated**: 2020-12-19

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# crawler

#### 前程无忧数据爬取+可视化

- 数据爬取+持久化
  - 爬取前程无忧500页数据，搜索关键字：大数据
  - 使用多线程(30)进行爬取，共耗时25min
  - 使用pymysql进行持久化，添加线程锁lock防止数据混乱
- 数据清洗
  - 基于pandas中DataFrame进行去除重复数据、不符合要求数据(职位不含有数据关键字)、空值清洗
  - 基于sqlalchemy进行入库(mysql)
- 数据可视化
  - 基于pyecharts中：Funnel(漏斗图)、Geo(地理坐标系图)、Pie(饼图)，生成可视化html文件

#### Scrapy框架练习

- wangyiPro
  - 爬取网易新闻五大板块(军事、航空、无人机、公益、媒体)中的动态数据
  - 请求传参进入二级页面，下载中间件+selenium获取动态数据返回爬虫类，pymysql进行持久化存储
- sunCrawlPro
  - 爬取阳关问政平台数据
  - 基于CrawlSpider进行深度爬取，LinkExtractor与Rule
- midllePro
  - 测试下载中间件的代理IP与UA伪装
  - 构建IP池与UA池
- 等等

#### selenuim自动化

- 捕获cookie，携带cookie进行数据爬取
- 动作链破解滑动验证码
- 基于selenium获取动态加载数据(ajax)

#### 机器学习破解QQ空间滑块验证码

因为豆瓣的滑块与QQ空间的相同，所以同样适用于豆瓣

- 使用selenium获取滑块图片与背景图片url
- requests将图片保存到本地
- 使用opencv模块(二值化图片，模板匹配，获取偏移量) 计算缺口的偏移值
- 采用物理加速度相关位移公式先快后慢模拟人工滑动规律
- 基于selenium动作链执行滑动

#### 爬取4个招聘网站

BOOS跟智联反爬很头疼，先用selenium顶一下吧

- 爬虫基础
- 多平台爬取
- pandas数据清洗
- selenium操作cookie(保存，加载)
- 可定制城市，职位，实习或1-3年工作经验

### 分布式爬虫

scrapy-redis

爬取房天下，全国所有城市的二手房与新房信息，https://www.fang.com/SoufunFamily.htm