爬取链家所有二手房信息,并存入python自带的sqlite3数据库中,借鉴他人程序进行编写
目的:1、继续熟悉scrapy框架 2、数据数据库操作
需求:爬取链家北京所有二手房信息,并存入sqlite3数据库中
1、如何统计链家全部的二手房?
链家的二手房搜索只能搜索前3000项,也就是100页,每页30套,而链家上显示北京在售的二手房信息共有27000套,所以只能设置选择条件使得每种条件搜索下房屋套数小于3000套共一百页。首先是考虑分区进行选取,除了海淀、朝阳区外其他区的在售二手房数量均小区三千,满足条件。对于海淀和朝阳超过3000套这种情况,可以再按照高中低楼层进行条件设置,这样使得按照楼层细分条件下的二手房套数也小于3000。
接下来就是scrapy的常规步骤了:
a、创建scrapy工程 b、定义item c、设置start_urls d、编写parse方法 解析所有网址 e、编写parse_item方法提取item f、 编写item pipeline存储提到的item。现在一步步慢慢开始
a)创建scrapy工程 只能在命令行界面下创建 scrapy startproject lianjia,而后 cd lianjia,执行scrapy genspider lianjiacrawler lianjia.com
b)定义item 主要提取了房屋信息的十项内容 房屋编码、售房简介、小区、房屋信息(几居室、朝向、面积)、片区、关注数、带看数、总价、均价。
c)设置start_urls start_urls列表是scrapy框架爬取网页的起始网址,因为我们选了多个区,所以其实网址是一个列表,较为特殊的是朝阳和海淀是按照楼层细分。举例如西城区的链家网址是https://bj.lianjia.com/ershoufang/xicheng/,而朝阳区再按楼层细分的话,链家网址就会在最后面加上lcx的后缀,x为[1,2,3,4,5]中的一个,举例朝阳区中楼层2904套,链家网址为https://bj.lianjia.com/ershoufang/chaoyang/lc2/,所以这里的start_urls设置如下所示
d)编写parse方法
此parse方法主要是为解析出每个start_urls起始地址里的后续地址,找出总共的页数,通过在chrome找到最大页数右键点击检查启动chrome开发工具,可直接定位到所在的elements
接下来就是提出去最大页数,采用response.xpath('//div[@class="page-box house-lst-page-box"]/@page-data').extract()[0])['totalPage'],可以将总页数提取出来,接下来就是形成每一页的url然后yield给scrapy.Request函数
e)提取item,编写parse_item方法,总的思路就是采用xpath找到信息,然后存储到lianjiaitem里,最后yield
f)在pipeline中持久化存储
我选择的是采用python自带的sqlite数据库,也可以采用文件存储方式,比如存储在excel中等等。
首先就是创建数据库啊表啊,字段啊,根据item共创建10个字段,然后执行insert也没什么好说的了。
总的就是这样,最后存储到数据库中28000套房屋。
全部的代码在这里 https://github.com/bitmote/lianjia
拿到数据还不是最终目的而只是手段,最终结果是通过对数据的淘洗得到一些有趣的信息。比如北京现售的最贵的房子是下面这个
一亿元的房子,最便宜的房子,用数据库查询是15万,这么便宜?!当然不是了,是车库
看来数据还是有一些杂质需要去伪存真。其实两万多套房屋数据,满可以分析出一些有价值的信息来的。