# housespider **Repository Path**: jiangwu10057/housespider ## Basic Information - **Project Name**: housespider - **Description**: 房源监控系统之爬虫系列 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 2 - **Created**: 2024-07-26 - **Last Updated**: 2024-07-26 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README #[北京房源数据爬虫,CSDN介绍](https://blog.csdn.net/hbnn111/article/details/140470587) (建议看说明文档前,可先跳转到CSDN上,看我写的介绍) ## 本项目是爬虫监控系统的一部分,即爬虫部分,主要负责定时或者按需从中介网站爬取房源数据。 ## 功能包括: ### 1、定时按行政区域、按学区、按小区等不同维度爬取房源数据; ### 2、对于满足条件或者感兴趣的房源,定时监控房价的变化和上下架的情况; ### 3、发送邮件通知 本项目需要使用 python3+ ## 操作手册: ### 1、执行DDL ,创建数据表 目录:sql/house.sql ### 2、安装依赖 pip install -r requirements.txt ### 3、更改配置文件的数据库配置 目录 : conf.py DB_HOST = "localhost" #数据库ip DB_PORT = 3306 DB_USER = "root" #数据库用户名 DB_PASSWORD = "123456" #数据库密码 DB_DATABASE = "house" #数据库 ### 4、命令示例 请查看 工程目录的cron.sh,如爬取海淀的房源: python3 house_spider.py -t 2 -d haidian ## FAQ ### 1、是否可以爬取非北京的城市? 我是把变量写成了bj,您可以换任何有链家的城市。 spider/ershou_spider.ErshouSpider中的爬取方法有个city参数 def start_crawl(self,city="bj",districts= list()): pass ## 说明: ### 1、本项目要感谢github上的一个开源项目,很多基础爬取工作都不用我自己做了,省了我很多时间。 ### 2、我本不想放到github上,但想看的人太多了,我发不过来了,就索性建个仓库。有什么问题可以留言给我。