《Python网络爬虫》1.4 Requests库方法详细介绍

By 一页编程


下面我们介绍一下requests库主要方法,并且对这些方法进行解析。
Requests库与HTTP协议的方法,功能是一一对应的,包括以下7个方法:

方法 说明
requests.request() 构造一个请求,支撑以下各方法的基础方法
requests.get() 获取HTML网页的主要方法,对应HTTP协议的GET
requests.head() 获取HTML网页头信息的方法,对应HTTP协议的HEAD
requests.post() 向HTML网页提交POST请求的方法,对应HTTP协议的POST
requests.put() 向HTML网页提交PUT请求的方法,对应HTTP协议的PUT
requests.patch 向HTML网页提交局部修改,对应HTTP协议的PATCH
requests.delete() 向HTML网页提交删除请求的方法,对应HTTP协议的DELETE

requests.request()方法

requests库的request方法是所有方法的基础方法,它有3个参数:

request(method, url, **kwargs)
  • method:通过request()实现的请求方式,它分别对应get、post、put等7种方法。
  • url:获取页面链接。
  • kwargs:控制访问参数,一共有13个。

请求方式

r = requests.request('GET', url, **kwargs)
r = requests.request('HEAD', url, **kwargs)
r = requests.request('POST', url, **kwargs)
r = requests.request('PUT', url, **kwargs)
r = requests.request('PATCH', url, **kwargs)
r = requests.request('DELETE', url, **kwargs)
r = requests.request('OPTIONS', url, **kwargs)

其中前6种大家看到这些已经非常清楚,它们就是HTTP协议所对应的请求功能,我们都已经介绍过了。而options事实上是向服务器获取一些服务器跟客户端能够打交道的参数,这里边并不与获取资源直接相关,因此,我们在平时使用中用的比较少。
在这7种方式中,我们除了直接使用request()方法之外,还可以使用requests库的对应方法。比如说,requests.get()requests.head()requests.post()来实现。

访问控制参数

URL我们大家都知道它是链接,我们不多说了,那么request()的13个访问控制的参数分别是什么呢?我们一一介绍一下。

  • params

params指能够增加到url中的参数,这个怎么理解呢?我们看一个例子:

>>> kv = {'key1': 'value1', 'key2': 'value2'}
>>> r = requests.request('GET', 'http://python123.io/ws', params = kv)
>>> print(r.url)
http://python123.io/ws?key1=value1&key2=value2
>>> 

我们发现,在我们给定的url中,它的后面多了一个问号,问号后面有key1=value1,&key2=value2。也就是说,通过这样一个参数,我们可以把一些键值对增加到url中,那么使得url再去访问时,不止访问的是这个资源,而同时代入了一些参数,那服务器呢?可以接受这些参数,并根据这些参数筛选部分资源返回回来。
后面,我们会有例子重点介绍这个参数的使用。

  • data

第二个要介绍的访问控制参数是data,它可以是字典、字节序列或文件对象。重点是作为向服务器提供或提交资源时使用。看下面的代码:

>>> kv = {'key1': 'value1', 'key2': 'value2'}
>>> r = requests.request('GET', 'http://python123.io/ws', data = kv)
>>> body = '主题内容'
>>> r = requests.request('GET', 'http://python123.io/ws', data = body)

使用data参数的时候,我们所提交的键值对,对并不放在url链接里,而是放在url链接对应位置的地方,作为数据来存储。我们当然也可以像data赋值一个字符串,那么这个字符串就会存到前面的url链接所对应的位置。

  • json

大家看到名字就能想到他是json格式的数据。json格式,在http、html相关的外部开发中用到的非常常见,也是http协议使用的最经常使用的数据格式,那么它也是作为内容部分可以向服务器提交,比如说我们用字典构造一个键值对,然后呢,我们可以把它复制给json参数,那么这个键值对就复制到服务器的json里面。

>>> kv = {'key1': 'value1', 'key2': 'value2'}
>>> r = requests.request('POST', 'http://python123.io/ws', json= kv)
  • headers

headers实际上是http头的相关语句,它对应了向某一个url访问时所发起的http的头字段,简单说,我们可以用这个字段来定制访问某一个url的http的协议头,举个例子:

>>> hd = {'user-agent': 'Chrome/10'}
>>> r = requests.request('POST', 'http://python123.io/ws', headers = hd)
>>> 

我们把user-agent变为Chrome/10,那么在访问某一个链接时,我们可以把这样的字段赋给headers,此时headers再去向服务器访问时服务器看到的user-agent字段就是Chrome/10。那Chrome/10是什么呢?他是指Chrome浏览器的第十个版本,也就是说我们可以模拟任何我们想模拟的浏览器向服务器发起访问,而这种模拟浏览器的方法就是在headers字段中来实现。
后面,我们有例子来去介绍这个字段的具体使用。

  • cookies 和 auth

cookies和auth都是requests库的高级功能。
cookies指的是从http协议中解析cookie, 它可以是字典,也可以是CookieJar形式。
auth字段是一个元组类型,它是支持http认证功能的。

  • files

顾名思义,它是向服务器传输文件时使用的字段。我们可以定义一个字典,用File,以对应的文件为键值对,用open的方式打开这个文件,并把这个文件与files做一个关联,同时对应到相关的url上。通过这样的方法,我们可以向某一个链接提交某一个文件,这个在特定应用时还是非常有用的。

>>> fs = {'file': open('data.txt', 'rb')}
>>> r = requests.request('POST', 'http://python123.io/ws', files= fs)
>>> 
  • timeout

Timeout设定的超时时间,以秒为单位。当我们发起一个get请求时,我们可以设一个timeout时间,如果在timeout时间内,我们的请求内容没有反馈回来,那么它将产生一个timeout的异常。

>>> r = requests.request('POST', 'http://python123.io/ws', timeout= 10)
>>> 
  • proxies

Proxies字段,他是一个字典类型,可以为我们爬取网页,设定相关的访问代理服务器。这里我们增加两个代理:

>>> pxs = {'http': 'http://user:pass@10.10.10.10:1234'
              'https': 'https://10.10.10.10:4321'
>>> r = requests.request('GET', 'http://www.baidu.com', proxies= pxs)
>>> 

第一个是http访问时使用的代理,在这代理中,我们可以增加用户名跟密码的设置。后面是一个https的代理服务器,这样我们在访问百度时的ip地址,就是代理服务器的ip地址。使用这个字段可以有效的隐藏用户爬取网页的源的ip地址信息,能够有效地防止对爬虫的逆追踪。

  • allow_redirects 和 stream

这两个字段都是开关字段。
allow_redirects表示允不允许对url进行重定向。
stream指对获取的内容是否进行立即下载,默认情况是立即下载。

  • verify 和 cert

verify是一个认证ssl证书的字段。
cert是保存本地ssl证书路径的字段。

其他方法

requests.get(url, params=None, **kwargs)
requests.head(url, **kwargs)
requests.post(url, data=None, json=None, **kwargs)
requests.put(url, data=None, **kwargs)
requests.patch(url, data=None, **kwargs)
requests.delete(url, **kwargs)

在使用这6个方法的时候,由于这些方法会常用到某一些访问控制参数,所以就把这样的参数作为一个显示定义的参数量放到了函数的设计里边,而那些不是特别常用的都放在了访问控制可选的参数字段里边。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,242评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,769评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,484评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,133评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,007评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,080评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,496评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,190评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,464评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,549评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,330评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,205评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,567评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,889评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,160评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,475评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,650评论 2 335

推荐阅读更多精彩内容