# housespider

**Repository Path**: jiangwu10057/housespider

## Basic Information

- **Project Name**: housespider
- **Description**: 房源监控系统之爬虫系列
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 2
- **Created**: 2024-07-26
- **Last Updated**: 2024-07-26

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

#[北京房源数据爬虫，CSDN介绍](https://blog.csdn.net/hbnn111/article/details/140470587) （建议看说明文档前，可先跳转到CSDN上，看我写的介绍）


## 本项目是爬虫监控系统的一部分，即爬虫部分，主要负责定时或者按需从中介网站爬取房源数据。

## 功能包括：
  ### 1、定时按行政区域、按学区、按小区等不同维度爬取房源数据；
  ### 2、对于满足条件或者感兴趣的房源，定时监控房价的变化和上下架的情况；
  ### 3、发送邮件通知


本项目需要使用 python3+

## 操作手册：
  
### 1、执行DDL ，创建数据表

    目录：sql/house.sql

### 2、安装依赖
 
    pip install -r requirements.txt

### 3、更改配置文件的数据库配置

  目录 ： conf.py

    DB_HOST = "localhost"   #数据库ip
    DB_PORT = 3306
    DB_USER = "root"         #数据库用户名
    DB_PASSWORD = "123456"   #数据库密码
    DB_DATABASE = "house"    #数据库

### 4、命令示例

   请查看 工程目录的cron.sh，如爬取海淀的房源：

      python3 house_spider.py -t 2  -d haidian 
   

## FAQ

### 1、是否可以爬取非北京的城市？
   我是把变量写成了bj，您可以换任何有链家的城市。
   spider/ershou_spider.ErshouSpider中的爬取方法有个city参数
   
      def start_crawl(self,city="bj",districts= list()):
           pass


## 说明：
### 1、本项目要感谢github上的一个开源项目，很多基础爬取工作都不用我自己做了，省了我很多时间。
### 2、我本不想放到github上，但想看的人太多了，我发不过来了，就索性建个仓库。有什么问题可以留言给我。