每个买房的人都有频繁刷某个real estate网站的经历吧,以澳洲为例,Real Estate网站。这家的搜索设置还是比较全面的,用户可以根据设置suburb (or postcode), property type, minimum and maximum bedrooms, 还有价格区间,使搜索结果尽量贴近自己理想的property。虽然好,但是从用用户的使用体验来说,还是存在一些痛点。
痛点一:数据存储
比如,在锁定买房的几个suburb以后,通常我们能得到十几条甚至几十条符合我们query的房子。而买房的过程一般会持续几个月之久,在这期间不断有新的房子被放到市场上。这也意味着,从开始动买房的念头,到最后settle,平均每个人要浏览几百间不同的房子,除非记忆力极佳,否则很难记住这些房子的细节。我们需要的是一个小型的易于操作(修改和查询)的数据库。如果这些房子以及其重要的参数都能被录下来,我们可以经常访问,快速排序,或者简单地做一些图表,那么就非常好了。Excel是一个被广泛使用,而且能满足我们的数据库需求的工具。可是把网页上的数据逐条手动复制到Excel的工作量过于繁杂,如何自动地把数据从网页上load到Excel里面,是我们想解决的一个小问题。
痛点二:数据可视化
另外,如果只盯着一个Excel表格,那些琳琅满目的数字和文字很容易让人类的大脑宕机。我们的大脑天生对图像比较敏感,诸如颜色,形状,大小等等。举个例子,如果我们download了一个suburb里面所有符合我们要求的房子数据。我们可以如何将它们可视化呢?首先,我们希望了解它们的位置,知道它们分布在这个区的那些具体位置。哪些离超市比较近,哪些离大路口比较近等等。这也就是把Excel中地址的文字信息翻译成经纬度,并呈现于地图上。其次,我们希望一张图上面的信息尽量丰富,比如一眼望去就能对他们的价钱和land size了如指掌。其实Real Estate提供了一个map功能,但是用户体验一般。地图功能显示了每个房子的位置,但用户必须点击每个房子的图标才能看到它的具体信息,诸如价钱等等。这个功能并没有帮助用户解放记忆空间,因为每个房子的信息还是independent的,没有形成一个比较网络。用户依然需要一个个记下来,然后才能比较。非常冗余。
解决方案:一个小工具
如果会使用R或者Python,或者任何其它编程工具的小伙伴们,即便没有过使用爬虫的经验,只要有一个入门小程序也能够很快的开发出适合自己的工具。我写了一个100来行的小script,希望能帮助到正在考虑买房的小伙伴们。
它实现的功能是:
(一):数据存储
程序的第一部分是初始设置:
1. list_suburbs: 需要搜索的区名
2. list_postcodes: 区相对应的邮编,以防不同城市suburb出现同名的情况
3. minBeds,maxBeds, minPrice, maxPrice:房间数量的区间,以及可接受的价格区间
所有符合query条件的房子数据自动被存入Excel,每个suburb对应一个sheet。每个房子被记录的参数包括:价钱,地址,房间数,土地面积,车库数,经纬度,等等。
(二)可视化
我实现了之前提到的简单的visualisation,包括:
1. 位置显示
2. 房价区间:颜色表示不同的价格区间。人脑对颜色记忆能力比较强,这张图把几十个房子的价钱信息同时囊括其中,我们非常方便比较不同房子之间的价格,短时间内锁定几个最符合自己期望的目标。PS:灰颜色意味着没有标价,很可能是准备进入auction拍卖的房子。想避免进入拍卖的朋友,这张图可以很快的帮你rule out一些没有标价的房子。
3. 土地面积:澳洲买房,land size是非常重要的信息。比如在Brisbane,800平米以上的地是可以被sub-divide的,但是800以下的就不可以。这里用圆点的大小来indicate面积大小。
这张例图的信息其实非常丰富。我们可以看到在mitchelton这个suburb,有一条地铁线贯穿其中。Oxford Park station和Michelton station是两个地铁站,其中Michelton station不远处有一个brookside shopping center。这两个地铁站附近都有几个大圆点,说明这两个location很热,交易非常活跃。而且虽然位置相近,土地面积相近,但价格差异却很大。这有可能是因为房屋的状态差异,比如新旧或者装修。对目标是买地投资的朋友而言,mitchelton附近那个橙色的大圆点可能是较为理想的目标,而对于买房自住的朋友,粉色的大圆点可能较为理想。
我只是写了非常简单的功能,但这个小工具可以扩展的方向很多。比如可以设置自动抓取刷新功能,每天定时抓取网页记录存取,并发一封email 给自己。对于一些非常火热的suburb,定时更新信息可能非常重要。还有就是可视化可以改进,比如有些朋友比较关注房间数量,那么可以在边栏现实房间数量,用不同形状的marker来表示。
总结
开发一个简单的工具总是能够让生活更简单些。当你考虑买房的时候,首先用这个系列第一篇文章中介绍的模型对每个suburb建立一个平均的模型,找出投资回报有优势的suburbs;再用这篇文章中介绍的小工具,把几十个suburb搜一遍,每个画一张图。很快就可以locate交易比较活跃的suburb。然后再仔细看那几个suburb的图,找到比较理想的房子。我的使用经验来说,这个方法可以非常快速地拍出冗余信息,节省时间成本。当然,这个过程的同时,要跟投资经验丰富的朋友多聊天,他们给出的信息可以帮你cross validate从数据中得到的insight。