# PythonDA
**Repository Path**: Terrence_Chung/python-da
## Basic Information
- **Project Name**: PythonDA
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 0
- **Forks**: 0
- **Created**: 2021-07-03
- **Last Updated**: 2021-07-06
## Categories & Tags
**Categories**: Uncategorized
**Tags**: None
## README
Python数据分析期末项目
- 本项目通过爬虫获取了链家的广州二手房市场信息
- 数据日期:2021.06.29
- 爬虫链接:https://gz.lianjia.com/ershoufang/
# 爬虫模块介绍
- Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间
# 数据说明
|字段名|注释|
|:-:|:-:|
|area|行政区|
|title|房源标题|
|community|小区|
|position|位置|
|tax|税相关|
|total_price|总价|
|unit_price|单位:万元/平|
|houseType|户型|
|houseSize|面积|
|direction|朝向|
|fitment|装修|
# 数据分析目标
此Python数据分析项目通过使用BeautifulSoup4(BS4)对链家的广州二手房信息进行爬取,获得对应房源的行政区、房源标题、小区、位置、税相关、总价、单位价格、户型、面积、朝向和装修信息,并使用pandas模块对数据进行抽取。
数据抽取后,再利用pyecharts数据可视化模块绘制交互式可视化图表,得出链家的广州二手房的大致面积和价格关系分布情况,总结了广州房价最高的一些小区和地段,并分析了广州二手房的户型分布以及最常被使用的标签等。
# 数据分析结果价值宣言
本项目通过爬虫对链家的广州二手房进行了数据分析。结合得到的数据,可以清晰地看到广州目前的房价与房屋面积的关系,以及得到广州房价最高的十个地段和十个小区,分析出整个广州的不同房屋户型所占的比例。
透过这些信息,可以对分析广州的房屋建设趋势起到很大的作用,也可以帮助想买房的人快速找到不同行政区的平均价格,以及不同地段的最高、最低以及平均价格。
# 数据分析结果可视化
## 可视化模块介绍
- 此项目使用pyecharts可视化模块绘制交互式可视化图表
- Echarts是一个由百度开源的数据可视化,凭借着良好的交互性,精巧的图表设计,得到了众多开发者的认可。而Python是一门富有表达力的语言,很适合用于数据处理。当数据分析遇上数据可视化时,pyecharts诞生了。
## 可视化结果展示以及数据故事的阐述
- 1.分析广州二手房房价与面积的关系

从散点图可以看出,链家的广州二手房的面积大多集中在50-200平方,房价则大多在50-700万之间,最高的一套房总价高达3500万
- 2.分析广州房价较高的地段

从条形图中可以看出,全广州房价最高的是珠江新城中,平均房价为15.5万元/平,远超第二名珠江新城西的9.4万元/平方
- 3.分析广州房价较高的小区

链家平台上全广州房价最高的小区是中海花城湾,平均房价为16.9万元/平
- 4.对广州二手房的户型进行分析

从扇形图中可以得出的结论是,广州的房屋户型占主导地位的是三室两厅和两室一厅,两者占比高达59.12%
- 5.对链家平台上的广州二手房标签进行分析

从词云图中可看出,链家平台的广州二手房房源中最常见的标签有采光、楼层、户型、电梯等等
# 心得与感谢
在此项目的完成过程中,我遇到了不少的疑惑以及技术上的问题,通过搜寻网上的资料以及请教同学,大多的问题以及得到了解决。制作这个项目也让我认识到Python的用途之广,功能之强大,也让我自己认识到自己的技术还存在非常多的不足。在解决了各种的问题,当数据通过可视化的方式展现出来的时候,我认为一切都是值得的。
# 参考资料
- [Python-pyecharts中常用的属性解释](https://blog.csdn.net/z18222043061/article/details/87882626/)
- [爬虫 之 BeautifulSoup4 基础教程](https://blog.csdn.net/weixin_43930694/article/details/90142678)
- [和鲸社区](https://www.heywhale.com/home)
- [数据存储到文件的几种方式](https://blog.51cto.com/u_15127561/2710000)
- [Flask搭建图形化业务数据分析平台](https://blog.csdn.net/Px01Ih8/article/details/79875445)