# 爬取链家网二手房数据 **Repository Path**: lihaogn/SpiderLianjia ## Basic Information - **Project Name**: 爬取链家网二手房数据 - **Description**: python爬虫小程序,爬取链家网南京地区普通住宅二手房数据 - **Primary Language**: Python - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 11 - **Forks**: 0 - **Created**: 2019-05-13 - **Last Updated**: 2023-11-01 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # SpiderLianjia ### 介绍 python爬虫小程序,爬取链家网南京地区普通住宅二手房数据 ### 1 程序设计 #### 1.1 开发环境 - 操作系统:macOS Mojave - 软件需求:Python 3.6、MongoDB 3.6.2 #### 1.2 基本功能 1. 爬取链家网中南京市二手房普通住宅分类前40页的详细信息 2. 绘制出鼓楼区不同装修情况的二手房的建筑面积与总价的关系图 #### 1.3 程序流程图 ##### 1.3.1 爬取数据 ##### 1.3.2 数据处理与图绘制 ![1552626636458](assets/1552626636458.png) #### 1.4 数据库设计 ##### 1.4.1 数据表设计 | **字段名** | **字段数据类型** | | ------------ | ---------------- | | **标题名称** | String | | **房屋总价** | String | | **小区名称** | String | | **行政区域** | String | | **房屋地址** | String | | **房屋户型** | String | | **所在楼层** | String | | **建筑面积** | String | | **户型结构** | String | | **套内面积** | String | | **建筑类型** | String | | **房屋朝向** | String | | **建筑结构** | String | | **装修情况** | String | | **梯户比例** | String | | **配备电梯** | String | | **产权年限** | String | ### 2 使用说明 ### 2.1 安装与配置 ##### 2.1.1 安装Python 1. 访问官网,进入下载页面,选择对应操作系统的版本进行下载,之后安装即可。 2. 配置环境变量: Windows系统在安装时直接选择添加环境变量即可。 3. 打开终端或命令提示符,输入以下指令来安装第三方库文件: ```shell pip install lxml pip install beautifulsoup4 pip install matplotlib pip install numpy pip install pandas pip install pymongo pip install requests ``` ##### 2.1.2 安装MongoDB 1. 访问官网,进入下载页面下载软件,之后安装即可。macOS下载的是压缩包,解压即可。 2. 配置环境变量: macOS需要在主目录.bash_profile文件中添加MongoDB所在的安装路径。 添加的语句为: ```shell MONGODB_HOME=”你安装MongoDB的绝对路径” PATH=”$ MONGODB_HOME/bin:$PATH” ``` ### 2.2 操作说明 ##### 2.2.1 运行数据库服务 1. Windows系统,需要打开安装目录,双击mongod.exe来运行数据库服务。 2. macOS,打开终端,输入“mongod”指令来运行数据库服务。 ##### 2.2.2 爬取数据并入库 1. 打开终端或命令提示符,输入指令进入项目文件夹 2. 运行以下指令,进行爬取数据: ```shell python spider_work.py ``` ##### 2.2.3 绘制关系图 1. 打开终端或命令提示符,输入指令进入项目文件夹 2. 运行以下指令,进行绘图操作: ```shell python dataAnalyse.py ``` ### 3 结果展示 #### 3.1 数据库截图 ![result2](assets/result2.png) #### 3.2 绘图 ![result](assets/result.png)