零基础小白学python之【贝壳房价爬取】(一)

学习用python写爬虫有几天了,下面写一个小爬虫验证下学习成果吧。 本文适合小白食用,各位大佬您就图个乐~

Tip:本文仅供学习与交流,切勿用于非法用途!!!

一、网页分析

爬取贝壳网石家庄二手房信息,先打开链接https://sjz.ke.com/ershoufang/。​

如果大家在学习中遇到困难,想找一个python学习交流环境,可以加入我们的python圈,裙号930900780,可领取python学习资料,会节约很多时间,减少很多遇到的难题。

不添加筛选条件,发现总共有42817套房子。我们点击第二页,再查看链接变成了https://sjz.ke.com/ershoufang/pg2/。所以,可发现/pg{i},i就是页码。经过体育老师教授的数学,数了一下,一页30个,最多可选100页。​所以最多可爬取3000套房产信息,距离上面给出的4万多差的还很远,于是尝试把pg{i}的那个i人为改变一下,点击回车请求一下。

https://sjz.ke.com/ershoufang/pg200/

https://sjz.ke.com/ershoufang/pg300/

发现这两个请求,返回房产信息数据都一样。都是第100页的信息,于是乎,得出结论。通过贝壳网web端,查看某一条件下的房产信息,最多可以查看3000套。害,最多才能买3000套,有钱花不出去的感觉真难受啊~ 逃:)~~

​所以呢,我们增加一些条件,比如,满五唯一,2室的。请求之~​发现链接变成了https://sjz.ke.com/ershoufang/pg2mw1l2/。mw1l2这个玩意应该筛选条件。看到只有2399套,欧克,咱们就爬它了。

二、撸起袖子写代码

麻雀虽小五脏俱全,本爬虫设计三个部分,爬取,解析,储存。

爬取

爬取利用requests库,比python内置库urllib要好用很多。

import requests

def get_a_page(url):

    result = requests.get(url)

    print(result.text)


if __name__ == '__main__':

    for i in range(1, 101):

        get_a_page(f'https://sjz.ke.com/ershoufang/pg{i}mw1l2/')

复制代码

for循环打印返回数据,发现没问题。其实i循环到81就好了,毕竟咱们知道了,只有不到2400套嘛。

解析

解析使用pyquery,这个库使用起来类似于Jquery。完整API,https://pythonhosted.org/pyquery/api.html。还有一个解析库`bs4,下次再尝试。

发现读取如图所示ul里面一个div就可以拿到我们想要的数据。

import requests

from pyquery import PyQuery as pq

import json

def get_a_page(url):

    result = requests.get(url)

    doc = pq(result.text)

    ul = doc('.sellListContent')

    divs = ul.children('.clear .info.clear').items()

    for div in divs:

        count += 1

        title = div.children('.title a').text()

        place = div.children('.address .flood .positionInfo a').text()

        msg = div.children('.address .houseInfo').text()

        price = div.children('.address .priceInfo .totalPrice span').text()

        per_meter = div.children('.address .priceInfo .unitPrice').attr('data-price')

        dict = {

            'title': title,

            'place': place,

            'msg': msg,

            'price': price,

            'per_meter': per_meter

        }

        print(str(count) + ':' + json.dumps(dict, ensure_ascii=False))

复制代码

代码如上,pyquery 的children方法是查找子标签,find方法是找子孙标签,此处我们只需要找下一代就好。然后通过text找到标签所包含的文本。attr是获取属性内容的,因为那个per_meter从属性中获取比较简单,标签中的内容还包含了“元/平米”。

储存

本次我们直接储存到csv中,一种类似于excel的文件格式。利用的是pandas库。

完整代码如下:

import requests

from pyquery import PyQuery as pq

import json

import pandas as pd

columns = ['title', 'msg', 'price', 'per_meter']

# 爬取某网页

def get_a_page(url):

    result = requests.get(url)

    doc = pq(result.text)

    ul = doc('.sellListContent')

    divs = ul.children('.clear .info.clear').items()

    count = 0

    titles = []

    places = []

    msgs = []

    prices = []

    per_meters = []

    for div in divs:

        count += 1

        title = div.children('.title a').text()

        place = div.children('.address .flood .positionInfo a').text()

        msg = div.children('.address .houseInfo').text()

        price = div.children('.address .priceInfo .totalPrice span').text()

        per_meter = div.children('.address .priceInfo .unitPrice').attr('data-price')

        dict = {

            'title': title,

            'place': place,

            'msg': msg,

            'price': price,

            'per_meter': per_meter

        }

        titles.append(title)

        places.append(place)

        msgs.append(msg)

        prices.append(price)

        per_meters.append(per_meter)

        print(str(count) + ':' + json.dumps(dict, ensure_ascii=False))

    datas={

        'title': titles,

        'place': places,

        'msg': msgs,

        'price': prices,

        'per_meter': per_meters

    }

    df = pd.DataFrame(data=datas, columns=columns)

    df.to_csv('sjz.csv', mode='a', index=False, header=False)

if __name__ == '__main__':

    for i in range(1, 101):

        get_a_page(f'https://sjz.ke.com/ershoufang/pg{i}mw1l2/')

复制代码

多进程

由于get_a_page函数要运行100次,有点小慢,所以利用多进程加快速度,这部分代码,请直接copy。

将主函数改成如下所示

from multiprocessing.pool import Pool

if __name__ == '__main__':

    pool = Pool(5)

    group = ([f'https://sjz.ke.com/ershoufang/pg{x}mw1l2/' for x in range(1, 101)])

    pool.map(get_a_page,group)

    pool.close()

    pool.join()

复制代码

三、结束

查看下效果:

​效果还可以。有人会说,为什么不把msg信息拆分一下,分别储存楼层、几室几厅、建筑年代等等多好。刚开始,我是那么做的,结果发现这个msg数据那几项不是必填项,有的建筑年代、楼层什么的房主不填写,索性就整个拿过来了。

小编的第一个爬虫就这样结束了。虽然简单,但是写完,还是有点小小的满足感。今后还会继续学习爬虫,写一些博客发出来。小伙伴们,点个赞再走嘛~

最后多说一句,想学习Python可联系小编,这里有我自己整理的整套python学习资料和路线,想要这些资料的都可以进q裙930900780领取。

本文章素材来源于网络,如有侵权请联系删除。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,088评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,715评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,361评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,099评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,987评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,063评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,486评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,175评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,440评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,518评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,305评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,190评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,550评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,880评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,152评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,451评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,637评论 2 335