链家二手房数据分析

本文纯属练手文章,通过链家二手房数据可视化分析来提升自己在数据分析及可视化报告方面的能力。

第一部分:数据报告(ppt)

第二部分:python数据分析过程

1、数据初探:

将数据加载入jupyter notebook进行分析:

导入要用到的科学计算包,numpy,pandas,matplotlib,seaborn包

读取数据

读出来的数据如下所示:

查看数据的整体情况

发现除了elevator这特征值有缺失值之外其他数据都没有缺失值,由于有无电梯不是数值,不存在平均值和中位数,因此在次根据常识进行判断,一般楼层高于6的为有电梯房,低于包括6的为无电梯房。

缺失值填充:

二、数据可视化

1、Year特征分析


通过图分析,在2000年到2009年这十年期间,售出二手房数量最多的年份是在2003到2005年,2008年需求量最低,可猜测是与08年金融危机有关,由于国家出台 政策降低个人住房交易税收政策,在一定程度上缓解了房地产行业受金融危机的影响,不会出现严重的房地产泡沫现象。

2、Floor特征分析


从图可以看到,6层二手房数量最多,但是单独的楼层特征没有什么意义,因为每个小区住房的总楼层数不一样。另外楼层与文化也有重要联系,一般而言中间楼层 是比较受欢迎的,房价相对而言也会高一些,顶层和底层的楼层需求量相对而言较少,房价相对会低一些。所以楼层也是影响房价的一个复杂特征。

3、Layout特征分析

查看数据发现户型的布局有以下多种 :['2室1厅', '3室1厅', '3室2厅', '1室1厅', '2室2厅', '4室2厅', '1室0厅', '4室1厅', '5室2厅', '2房间1卫', '1房间1卫', '3房间1卫', '4室3厅', '5室3厅', '1室2厅', '6室2厅', '3房间2卫', '2室0厅', '3室3厅', '4房间2卫', '3室0厅', '6室3厅', '5室1厅', '叠拼别墅', '2房间2卫', '4房间1卫', '1房间0卫', '5房间2卫', '7室3厅', '4房间3卫', '7室2厅', '5房间3卫', '2室3厅', '6室4厅', '4室4厅', '5室4厅', '8室3厅', '6房间4卫', '3房间0卫', '8室2厅', '4室0厅', '6房间3卫', '6室0厅', '1房间2卫', '2房间0卫', '3房间3卫', '6室1厅', '5室0厅', '1室3厅', '9室1厅', '8室4厅', '6室5厅', '7房间2卫', '11房间3卫', '5房间0卫', '9室3厅', '7室1厅', '8室5厅', '6房间5卫', '9室2厅']

4、Renovation 分析

首先查看一下数据renovation有哪几种类型值

由于renovation的不存在南北这样的特征,因此将这些异常数据排除在外进行分析


观察到,精装修的二手房数量最毒,其次是简装,对于价格来说毛坯的价格却是最高的,其次是精装,由此猜测 可能是毛坯买回来后自行装修的成本比经销商统一装修的成本高。

5、Region特征分析

从图可以看到,北京朝阳,海淀的需求量最多差不多都接近3000套,近几年丰台在改造建设,有赶超之势。密云最少。二手房的需求与地理位置有很大关系,地理位置越优越,需求量越大。  西城区的均价最高,大约为11万/平,因为西城是在二环以内,且是热门学区房的聚集地。其次是东城,大约9.9万/平,然后是海淀,其他均低于8万/平。

6、Size特征分析


通过密度分布图观察Size特征的分布情况,属于长尾类型的分布,说明有很多面积大且超出正常范围的二手房。


从Siize与price的散点图可发现size特征基本与price呈现线性关系,面积越大价格越高,从图中还可以发现一些异常值,首先是面积不到10平米,但是价格却超出了1000万,其次是有一个点面积超过1000平米,价格却很低。
由筛选的异常数据可以看到面积为1019平米的规格是1房0厅,由此猜测这个异常值可能不是民住房,而是用于商业的。比如一些大型商场


由筛选的异常值可以看出这些数据属于叠拼别墅,由于别墅的结构比较特殊将异常值移除进行分析


将异常值移除后发现没有明显的异常点,二手房的大小主要在100平米左右

三、总结

本文主要通过二手房数据的Year,Floor,Layout,Renovation,Region,Size,Price特征进行分析,最后得出两房一厅,三房一厅,楼层在6楼的房子较为受欢迎,房子的售价受地理位置,面积,装修程度,楼层,朝向等多因素的影响。

本文只是对数据进行简单的分析,如果进行更深层次的分析,还需掌握更多的售房特征信息,做更多的特征工程工作,比如数据清洗,特征提取。通过选取多维度的特征进行统计建模分析预测售房价格。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,179评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,229评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,032评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,533评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,531评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,539评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,916评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,813评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,568评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,654评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,354评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,937评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,918评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,152评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,852评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,378评论 2 342

推荐阅读更多精彩内容