requests
模块
最简单的方式请求页面
>>> import requests
>>> r = requests.get("http://www.baidu.com")
>>> r.text
其他的HTTP
请求类型:
>>> r = requests.post("http://httpbin.org/post")
>>> r = requests.put("http://httpbin.org/put")
>>> r = requests.delete("http://httpbin.org/delete")
>>> r = requests.head("http://httpbin.org/get")
>>> r = requests.options("http://httpbin.org/get")
带有参数的请求页面
有时需要为 URL 的查询字符串(query string
)传递某种数据,requests
允许使用params
关键字参数,并以一个字典来提供这些参数。举例如果想传递key1=value1
和key2=value2
到httpbin.org/get
,可以使用如下方式:
>>> payload = {"key1":"value1","key2":"value2"} # 定义传递的参数
>>> r = requests.get("http://httpbin.org/get",params=payload) # 请求
>>> print r.text
{
"args": {
"key1": "value1",
"key2": "value2"
},
"headers": {
"Accept": "*/*",
"Accept-Encoding": "gzip, deflate",
"Host": "httpbin.org",
"User-Agent": "python-requests/2.10.0"
},
"origin": "180.168.112.222",
"url": "http://httpbin.org/get?key2=value2&key1=value1"
}
读取响应内容
>>> r = requests.get("http://www.jianshu.com")
>>> print r.text # 可以读取到简书首页的html源码
>>> r.encoding # requests 根据头信息推测的编码
'utf-8'
>>> r.encoding = 'ISO-8859-1' # 改变编码,并重新读取刚刚的页面
>>> print r.text # 会发现中文部分乱码
关于编码:requests
会自动解码来自服务器的内容,大多数的unicode
字符集都能被无缝的解码,请求发出后,requests
会基于HTTP
头部对响应的编码做出推测。r.encoding
可以显示目前使用的编码,也可以赋值为其他的编码。
二进制响应内容
可以以字节的方式访问请求响应体,对于非文本请求,requests
会自动解码gzip
和deflate
传输编码的响应数据。
JSON 响应内容
requests
中也有一个内置的JSON
解码器,r.json()
来处理JSON
数据。
原始响应内容
在罕见的情况下,你可能想获取来自服务器的原始套接字响应,那么你可以访问r.raw
,并确保初始请求中设置了stream=True
。
>>> r = requests.get('https://github.com/timeline.json', stream=True)
>>> r.raw
<requests.packages.urllib3.response.HTTPResponse object at 0x101194810>
>>> r.raw.read(10)
'\x1f\x8b\x08\x00\x00\x00\x00\x00\x00\x03'
定制 headers
为请求添加HTTP
头部,只要简单地传递一个dict
给headers
参数就可以了
>>> headers = {"user-agent":"hoho"}
>>> r = requests.get("http://httpbin.org/get",headers = headers)
>>> print r.text
{
"args": {},
"headers": {
"Accept": "*/*",
"Accept-Encoding": "gzip, deflate",
"Host": "www.httpbin.org",
"User-Agent": "hoho"
},
"origin": "180.168.112.222",
"url": "http://www.httpbin.org/get"
}
注意: 定制 header 的优先级低于某些特定的信息源,例如:
- 如果在
.netrc
中设置了用户认证信息,使用headers=
设置的授权就不会生效。而如果设置了auth=
参数,.netrc
的设置就无效了。 - 如果被重定向到别的主机,授权
header
就会被删除。 - 代理授权
header
会被URL
中提供的代理身份覆盖掉。 - 在我们能判断内容长度的情况下,
header
的Content-Length
会被改写。
POST 请求发送数据
通常要发送一些编码为表单形式的数据,可以讲一个字典传递给data
参数,数据字典在发出请求时会自动编码为表单形式:
>>> payload = {'key1': 'value1', 'key2': 'value2'}
>>> r = requests.post("http://httpbin.org/post", data=payload)
>>> print(r.text)
{
...
"form": {
"key2": "value2",
"key1": "value1"
},
...
}
有时候我们需要传送的信息不是表单形式的,需要我们传JSON格式的数据过去,所以我们可以用 json.dumps() 方法把表单数据序列化。
>>> import json
>>> import requests
payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.post("http://httpbin.org/post", data=json.dumps(payload))
print r.text