爬虫实战1.3.7 页面解析-抓取猫眼电影排行(正则解析)

这篇还是继续我们的页面解析,如果承接前面几篇的话,大家可能会认为这次说的是pyquery,经我这一说就不是这样的了,今天介绍一个更加好用的一个库:requests-html

1.request-html介绍

首先先简单介绍一下,requests-html就是requests的作者开发的,将Requests、PyQuery、lxml、BeautifulSoup等库进行了二次封装,本身Requests库已经够简单、够强大了,requests-html又做了一次升级。。。他的强大可见一斑,遗憾的是只支持Python3.6以上版本。想要详细了解的可以去git或文档那看:
源码请看:github地址
中文文档:中文文档地址
重要的可以引用文档开始这几句话来表示:

全面支持解析JavaScript!
CSS 选择器 (jQuery风格, 感谢PyQuery).
XPath 选择器, for the faint at heart.
自定义user-agent (就像一个真正的web浏览器).
自动追踪重定向.
连接池与cookie持久化.
令人欣喜的请求体验,魔法般的解析页面.

2.request-html安装

安装的话使用pip即可

pip install requests-html

3.request-html应用

首先来做个对比:平常做的时候我们是先发出请求,然后再进行解析:

import requests
from pyquery import PyQuery as pq

#获取网页
html = requests.get()
#解析网页
doc = pq(html)

我们再看一下requests-html:

from requests_html import HTMLSession

session = HTMLSession()
html = session.get()

很明显的改变,requests-html将请求跟解析合并到一块了,一步到位。

下面我们还是以猫眼TOP100来看下requests-html的用法
发出请求,获取页面信息:

from requests_html import HTMLSession

session = HTMLSession()
req_html = session.get("https://maoyan.com/board/4")
print(req_html)

看下返回:

<Response [200]>
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 196,165评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,503评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 143,295评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,589评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,439评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,342评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,749评论 3 387
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,397评论 0 255
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,700评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,740评论 2 313
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,523评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,364评论 3 314
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,755评论 3 300
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,024评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,297评论 1 251
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,721评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,918评论 2 336

推荐阅读更多精彩内容

  • HTTP基本原理 URI、URL、URN(Uninform Resource) URI(Identifier):统...
    GHope阅读 2,046评论 2 26
  • 本文转载:静觅 » [Python3网络爬虫开发实战] 4.3-使用pyquery 如果你对Web有所涉及,如果你...
    罗汉堂主阅读 332评论 0 0
  • 基础知识 HTTP协议 我们浏览网页的浏览器和手机应用客户端与服务器通信几乎都是基于HTTP协议,而爬虫可以看作是...
    腩啵兔子阅读 1,456评论 0 17
  • 许三观卖血记[余华] 许三观一共卖了12次血,10次为了家人,1次为了结婚,最后一次为了自己,因为年迈体衰,没有人...
    木木_6088阅读 242评论 0 1
  • 我不爱你,就像我不爱阴雨绵绵的天气, 我不爱你,就像枫叶落去也带不走的思绪。 你不是我,怎会懂我内心的悲伤逆流成河...
    遇子期阅读 353评论 0 3