爬虫——进阶（一）requests

一：requests概述

requests第三方封装的模块，通过简化请求和响应数据的处理，简化繁琐的开发步骤和处理逻辑，统一不同请求的编码风格以及高效的数据处理特性

二：安装

python2/python3命令行安装
pip install requests
easy_install requests

三：requests的使用

通过一个小demo.py来开启requests的简单使用
import requests
发送请求，得到服务器返回的响应对象，通过encoding设置响应中数据中的编码
response = requests.get('https://image.baidu.com/search/acjson?')
response.encoding = 'utf-8'
通过text打印响应中的文本数据
print(response.text)

requests为爬虫开发者提供了八种基本请求方式
rep = requests.request(method,url,**kw)
rep = requests.post(url,**kw)
rep = requests.get(url,**kw)
rep = requests.delete(url,**kw)
rep = requests.put(url,**kw)
rep = requests.head(url,**kw)
rep = requests.options(url,**kw)
rep = requests.patch(url,**kw)
ps:常用一般为post/get请求

基本请求方式

import requests#引入需要的模块
rep = requests.post('http://www.baidu.com')#利用post发送请求
print(rep.text)#通过text属性得到响应的数据

ps:就是这么简单的爬取了网页数据，但是这样就是相当于裸奔在别人家的网站上获得数据，这是就需要我们将自己伪装成浏览器发送请求，可以通过设置请求头完成

import requests
#设置请求头
headers = { 'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Mobile Safari/537.36'}
#设置请求地址
url = 'https://www.taobao.com'
#发送请求
response = requests.get(url, headers=headers)
#打印响应数据
print(response.text)

ps:简单的伪装成浏览器，穿上衣服去拿东西会不会好点呢？

附带普通参数的请求

这个也是很easy的操作：将参数包含在一个字典对象中，将字典对象交给requests的函数即可——话不多说看代码
#引入需要的模块
import requests
#封装参数的字典
data = {'city':'上海'}
#get方式发送请求，包含参数
rep = requests.get(url, params=data)
#post方式发送请求，包含参数
rep = requests.post(url, data=data)
print(rep)

传递JSON参数

在请求的过程中，有些url接口需要的参数数据并不是零散的数据，而需要封装在一起的JSON数据，此时可以通过json.dumps()函数将一个字典数据转换成json数据进行传递
import requests#引入需要的模块
import json
#封装参数的字典
data = {'city':'上海'}
#转换参数
json_data = json.dumps(data)
#post方式发送请求，包含参数
rep = requests.post(url,data = json_data)
对json字符串操作
import requests
#封装参数的json字符串
json_data = '{'city':'上海'}'
#post方式发送请求，包含参数
rep = requests.post(url,data = json_data)

文件上传操作

requests对象支持文件的数据流式处理，不需要将整个文件都加载到内存中，而是读取一部分传递一部分，将文件指定给requests请求的file参数
注意：文件的上传只能通过post()请求方式执行操作
1.传统文件上传
import requests
f = open('d:/test.txt', 'r')
#包装文件参数
file = {'file':f}
#传递文件
response = requests.post(url, files = file) print(response)
2.流式文件上传
import requests
resopnse = requests.post(url)
with open('d:/test.txt', 'r') as f:
--------f.write(response.text.encode('utf-8'))

cookie操作

cookie操作是web开发过程常用的一个功能，在爬虫过程中也是非常实用的一个功能，可以用于进行登录状态，浏览记录等很多非常实用的功能
在requests模块中对cookie的操作进行了封装，可以直接通过响应对象的cookie属性进行操作
import requests
response = requests(url)
#获取整个cookie
cookie_data = response.cookies
print（cookie_data）
#根据key获取指定的值
cookie_key = cookie_data['key']
print(cookie_key)

请求超时设置

通过timeout参数进行超时时间设置，超出时间连接自动抛出异常
import requests
response = requests.get(url, timeout=1)
异常信息：requests.exceptions.ConnectTimeout

SSL证书设置

SSL证书设置，可以让爬虫程序类似浏览器一样验证https协议访问的网站，为https请求验证SSL证书
ps:怎么关掉SSL证书呢？
import requests
response = request.get(url, verify = Flase)
print(response.text)

代理设置

和之前的urllib2一样，代理的设置是不可避免的一种技术手段
在requests模块中，当然也可以充分考虑代理操作的可行性
通过将代理服务器端口设置在字典中，然后通过proxies参数进行设置
import requests
proxies = {'https':'122.72.32.75:80'}#代理的IP地址和访问端口
response = requests.get('http://www.baidu.com', proxies = proxies)
print(response.text)

未完待续......

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,456评论 5赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,370评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,337评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,583评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,596评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,572评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,936评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,595评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,850评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,601评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,685评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,371评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,951评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,934评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,167评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,636评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,411评论 2赞 342

爬虫——进阶（一）requests

一：requests概述

二：安装

三：requests的使用

推荐阅读更多精彩内容