文山市房价可视化分析

毕业刚工作没几个月,就有朋友建议我去买房。作为一个数据狗,对于这种比较大项的支出还是比较慎重的,所以我需要知道:(1)文山的平均房价是多少?(2)该在哪买房?。

为了分析文山市房价的基本情况,作者利用网络爬虫抓取了安居客房天下58同城这几个网站上房价的数据,运用统计相关知识来解答作者的疑虑。

一、分析的思路

前段时间和几个朋友讨论过关于买房的问题,主要讨论的就是该不该买、买不买得起和去哪买得问题。于是就产生了一个想法,分析一下作者工作城市的房价情况。

文山市房价分析

1.数据来源

信息时代,只需要我们轻轻点击手机,就可以了解到与生活息息相关的信息。近几年,出现了很多平台方便用户发布和获取房产信息,通过查看站长之家其中比较具有代表性的是安居客房天下58同城

在此次分析中,作者选择安居客房天下58同城的数据作为数据源。

2.分析步骤

  • 数据收集
  • 数据清洗
  • 数据分析
  • 数据展示

3.相关技术

分析过程中涉及到的技术主要包括:

  • Python:数据分析领域的热门语言,主要完成网络爬虫功能抓取数据,以及数据清洗、转换等
  • Excel:微软公司的代表性产品,数据分析中不可或缺的工具
  • Tableau:数据可视化领域排名第一的产品,互联网独角兽公司的核心产品,用于数据探索
  • Echarts:百度公司在数据可视化领域的开源项目,广泛用于各类数据平台
  • 百度地图坐标抓取API:用于地址和坐标之间的相互转换
  • 其他:正则表达式

技术只是手段,解决问题不同的人有不同的方式。不拘泥与技术的实现,解决问题才是关键!

二、分析的过程

分析的思路是比较简单,首先利用网络爬虫抓取58同城、安居客和城市房价网的相关数据,然后对数据进行清洗的转换,得到我们所需要的数据。最后选择适合的可视化方式对数据进行处理,对分析的结果进行直观的展示。

1.数据收集

利用Python(urllib2、Beautiful)抓取网站的相应数据。核心代码如下:

import urllib2
import pandas as pd
from bs4 import BeautifulSoup

# 利用urllib2获取网页源码
def getSoup(url):
    request = urllib2.Request(url)
    reponse = urllib2.urlopen(request)
    contents = reponse.read()
    soup = BeautifulSoup(contents,from_encoding="utf-8")
    return soup

#用BeautifulSoup解析数据    
def getData(url): 
    #调用getSoup函数获取网页源码
    soup = getSoup(url)
    fangjia_row = []
    for tag in soup.find('table',class_='tbimg').find_all('tr'):
        Td_list = tag.find_all('td')
        Title = Td_list[1].a.get_text()
        Address = Td_list[1].find('div',class_='qj-listleft').a.next_sibling
        Address = re.sub(r'\s','',Address)
        DetailInfo = Td_list[1].find('div',class_='qj-listright').get_text()
        DetailInfo = re.sub(r'\s','',DetailInfo)
        fangjia_info = [Title,Address,DetailInfo]
        fangjia_row.append(fangjia_info)
    return ershoufang_row
    
if __name__ == '__main__':
    datalist = []
    #网站URL
    url = 'XXXXXX'
    
    datalist.extend(getData(url))
    fangjia = pd.DataFrame(datalist)
    #将数据写入csv文件中
    fangjia.to_csv('data/fangjiadata.csv',encoding='utf-8')
    

2.数据清洗

这个过程就比较简单了,主要是用Excel对抓取下来的数据进行处理。主要涉及到的字符串提取的几个函数:

(1)LEFT RIGHT函数:

LEFT(text,num_chars)
RIGHT(text,num_chars)

第一个参数text,是文本,是你想要在那提取东西的文本,可以是一个字符串,或是一个单元格。第二个参数chars是想要提取的个数。

(2)MID函数:

MID(text,start_num,num_chars)

第一个参数也是text,它的属性与前面两个是一样的。第二个参数,star_num,也就是要提取的开始字符,第三个参数num_chars是要提取的个数。

3.数据转换

通过上面的两步,得到关于房价的相关数据。比较关键的一步是通过百度地图API将楼盘名转换为经纬度,得到了我们最终可视化需要的数据。

#获取文山市建设家园的经纬度
baiduAPI_url = 'http://api.map.baidu.com/geocoder/v2/?address=建设家园&city=文山市&output=json&pois=1&ak=7E16DB5787c6b9f93dbb6e73c6c05a35'
楼盘 均价 (元/平米) 经度 纬度
建设家园 5778 23.38751484 104.228124
桂名园 5552 23.39578995 104.2380282
金家园小区 5332 23.38297917 104.2370217
盘龙苑 5073 23.35158038 104.2675461
... ... ... ...

三、分析结果

本文的的分析结果基于85个小区的平均房价经纬度

1.文山市房价最贵的10个小区

文山房价最贵的10个小区

图示为文山房价最高的10个小区,最贵的小区盘龙谷的房价只需要7000元/平米,均价超过5000元/平米也仅有8个。可以看出文山的房价相对于其他的地级市还是相对比较低的。

2.文山市的平均房价

房价的基本分布情

从频率直方图可以看出,文山市的房价主要集中在3000-4500元/平米之间。也验证了朋友和我说的文山的房价差不多就3000元/平米。

3.文山房价的地区分布规律

这里写图片描述

文山市是一个依河所建的城市,住房主要集中在盘龙河的两侧,整体成条形。

这里写图片描述

四、结束语

简单说一下我的情况,16年7月份毕业,工资税后7000,公司供吃供住,每个月花销在2000左右。工作的这个小城市,房价在3000伤心,对于一个刚毕业的小孩来说,没太多的地方花钱,存起来也是折价,所以说买个房也算是一个比较不错的投资。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,530评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,403评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,120评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,770评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,758评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,649评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,021评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,675评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,931评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,751评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,410评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,004评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,969评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,042评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,493评论 2 343

推荐阅读更多精彩内容

  • Word,PPT,Excel这三个Office软件是职场办公里最常用的三个软件,但是我发现简书上写PPT的教程多,...
    远行客阅读 142,668评论 41 2,241
  • 按照用途分类出以下文本和数据函数: ASC 用途:将字符串中的全角(双字节)英文字母更改为半角(单字节)字符。语法...
    四方院祭司阅读 1,204评论 0 1
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,432评论 25 707
  • 转自链接 目录 1.认识NPOI 2.使用NPOI生成xls文件 2.1创建基本内容 2.1.1创建Workboo...
    腿毛裤阅读 10,439评论 1 3
  • 图片来着零七~ 四月的春雨微凉 我们坐在草地上 看小草发了新芽 你还是那样 什么也不说 我四顾张望 偶然抬头间 不...
    零七阅读 227评论 0 0