# PythonDA **Repository Path**: Terrence_Chung/python-da ## Basic Information - **Project Name**: PythonDA - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2021-07-03 - **Last Updated**: 2021-07-06 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README

Python数据分析期末项目

- 本项目通过爬虫获取了链家的广州二手房市场信息 - 数据日期:2021.06.29 - 爬虫链接:https://gz.lianjia.com/ershoufang/ # 爬虫模块介绍 - Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间 # 数据说明 |字段名|注释| |:-:|:-:| |area|行政区| |title|房源标题| |community|小区| |position|位置| |tax|税相关| |total_price|总价| |unit_price|单位:万元/平| |houseType|户型| |houseSize|面积| |direction|朝向| |fitment|装修| # 数据分析目标 此Python数据分析项目通过使用BeautifulSoup4(BS4)对链家的广州二手房信息进行爬取,获得对应房源的行政区、房源标题、小区、位置、税相关、总价、单位价格、户型、面积、朝向和装修信息,并使用pandas模块对数据进行抽取。 数据抽取后,再利用pyecharts数据可视化模块绘制交互式可视化图表,得出链家的广州二手房的大致面积和价格关系分布情况,总结了广州房价最高的一些小区和地段,并分析了广州二手房的户型分布以及最常被使用的标签等。 # 数据分析结果价值宣言 本项目通过爬虫对链家的广州二手房进行了数据分析。结合得到的数据,可以清晰地看到广州目前的房价与房屋面积的关系,以及得到广州房价最高的十个地段和十个小区,分析出整个广州的不同房屋户型所占的比例。 透过这些信息,可以对分析广州的房屋建设趋势起到很大的作用,也可以帮助想买房的人快速找到不同行政区的平均价格,以及不同地段的最高、最低以及平均价格。 # 数据分析结果可视化 ## 可视化模块介绍 - 此项目使用pyecharts可视化模块绘制交互式可视化图表 - Echarts是一个由百度开源的数据可视化,凭借着良好的交互性,精巧的图表设计,得到了众多开发者的认可。而Python是一门富有表达力的语言,很适合用于数据处理。当数据分析遇上数据可视化时,pyecharts诞生了。 ## 可视化结果展示以及数据故事的阐述 - 1.分析广州二手房房价与面积的关系 ![输入图片说明](https://images.gitee.com/uploads/images/2021/0704/141714_b47bca98_5330571.png "截屏2021-07-04 14.02.41.png") 从散点图可以看出,链家的广州二手房的面积大多集中在50-200平方,房价则大多在50-700万之间,最高的一套房总价高达3500万 - 2.分析广州房价较高的地段 ![输入图片说明](https://images.gitee.com/uploads/images/2021/0704/142911_57043ee4_5330571.png "截屏2021-07-04 14.03.43.png") 从条形图中可以看出,全广州房价最高的是珠江新城中,平均房价为15.5万元/平,远超第二名珠江新城西的9.4万元/平方 - 3.分析广州房价较高的小区 ![输入图片说明](https://images.gitee.com/uploads/images/2021/0704/142940_eec035db_5330571.png "截屏2021-07-04 14.05.38.png") 链家平台上全广州房价最高的小区是中海花城湾,平均房价为16.9万元/平 - 4.对广州二手房的户型进行分析 ![输入图片说明](https://images.gitee.com/uploads/images/2021/0704/143019_349ad68f_5330571.png "截屏2021-07-04 14.04.35.png") 从扇形图中可以得出的结论是,广州的房屋户型占主导地位的是三室两厅和两室一厅,两者占比高达59.12% - 5.对链家平台上的广州二手房标签进行分析 ![输入图片说明](https://images.gitee.com/uploads/images/2021/0704/143052_4d0dbf88_5330571.png "截屏2021-07-04 14.06.46.png") 从词云图中可看出,链家平台的广州二手房房源中最常见的标签有采光、楼层、户型、电梯等等 # 心得与感谢 在此项目的完成过程中,我遇到了不少的疑惑以及技术上的问题,通过搜寻网上的资料以及请教同学,大多的问题以及得到了解决。制作这个项目也让我认识到Python的用途之广,功能之强大,也让我自己认识到自己的技术还存在非常多的不足。在解决了各种的问题,当数据通过可视化的方式展现出来的时候,我认为一切都是值得的。 # 参考资料 - [Python-pyecharts中常用的属性解释](https://blog.csdn.net/z18222043061/article/details/87882626/) - [爬虫 之 BeautifulSoup4 基础教程](https://blog.csdn.net/weixin_43930694/article/details/90142678) - [和鲸社区](https://www.heywhale.com/home) - [数据存储到文件的几种方式](https://blog.51cto.com/u_15127561/2710000) - [Flask搭建图形化业务数据分析平台](https://blog.csdn.net/Px01Ih8/article/details/79875445)