本文纯属练手文章,通过链家二手房数据可视化分析来提升自己在数据分析及可视化报告方面的能力。
第一部分:数据报告(ppt)
第二部分:python数据分析过程
1、数据初探:
将数据加载入jupyter notebook进行分析:
导入要用到的科学计算包,numpy,pandas,matplotlib,seaborn包
读取数据
读出来的数据如下所示:
查看数据的整体情况
缺失值填充:
二、数据可视化
1、Year特征分析
2、Floor特征分析
3、Layout特征分析
4、Renovation 分析
首先查看一下数据renovation有哪几种类型值
5、Region特征分析
6、Size特征分析
三、总结
本文主要通过二手房数据的Year,Floor,Layout,Renovation,Region,Size,Price特征进行分析,最后得出两房一厅,三房一厅,楼层在6楼的房子较为受欢迎,房子的售价受地理位置,面积,装修程度,楼层,朝向等多因素的影响。
本文只是对数据进行简单的分析,如果进行更深层次的分析,还需掌握更多的售房特征信息,做更多的特征工程工作,比如数据清洗,特征提取。通过选取多维度的特征进行统计建模分析预测售房价格。