# Crawler

**Repository Path**: ds17/Crawler

## Basic Information

- **Project Name**: Crawler
- **Description**: 拉钩 | 豆瓣 | 链家爬虫项目的合集
- **Primary Language**: Python
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2020-09-13
- **Last Updated**: 2020-12-19

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

### 本仓库下包括拉钩、豆瓣和链家三个爬虫
### 拉钩抓取全部公司介绍信息
##### 运行文件为lagou.py,由于拉钩网对ip有限制，采用更换代理ip的形式进行反爬虫，0103.txt为可用的代理ip，运行时lagou.py随机使用代理ip
##### 拉钩抓取数据部分截图
![](https://github.com/HunterChao/Crawler/blob/master/lagou/screenshots/lagou_pic.png)
### 链家抓取二手房信息数据
##### 采用scrapy框架抓取，运行文件为run.py，在控制台下直接运行即可，无需在cmd下启动
##### 链家爬取数据部分截图
![](https://github.com/HunterChao/Crawler/blob/master/LianJia/LianJia/lianjia.png)
##### 链家项目的详细介绍请见知乎专栏：https://zhuanlan.zhihu.com/p/25132058?refer=pythoncrawl
### 豆瓣电影信息抓取
##### 按电影分类爬取豆瓣上全部电影信息，共87000余条数据。
##### 包括读取电影分类信息GetPage.py，爬取各类别下电影详情介绍FullContents.py。
##### 豆瓣电影信息的详细介绍请见知乎专栏：https://zhuanlan.zhihu.com/p/24771128?refer=pythoncrawl