1. Cookie

为什么要使用Cookie呢？

Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）。比如说有些网站需要登录后才能访问某个页面，在登录之前，你想抓取某个页面内容是不允许的。那么我们可以利用Urllib库保存我们登录的Cookie，然后再抓取其他页面就达到目的了。

1） Opener

当你获取一个URL你使用一个opener(一个urllib.OpenerDirector的实例)。在前面，我们都是使用的默认的opener，也就是urlopen。它是一个特殊的opener，可以理解成opener的一个特殊实例，传入的参数仅仅是url，data，timeout。如果我们需要用到Cookie，只用这个opener是不能达到目的的，所以我们需要创建更一般的opener来实现对Cookie的设置。

2）Cookielib

cookielib模块的主要作用是提供可存储cookie的对象，以便于与urllib模块配合使用来访问Internet资源。Cookielib模块非常强大，我们可以利用本模块的CookieJar类的对象来捕获cookie并在后续连接请求时重新发送，比如可以实现模拟登录功能。该模块主要的对象有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar

2. URLError

首先解释下URLError可能产生的原因：

- 网络无连接，即本机无法上网

- 连接不到特定的服务器

- 服务器不存在

在代码中，我们需要用try-except语句来包围并捕获相应的异常,代码如下：

```

from urllib.request import Request, urlopen

from urllib.error import URLError

url = "。。。"

try:

headers = {

"User-Agent": "。。。。"

}

req = Request(url, headers=headers)

resp = urlopen(url, timeout=1)

print(resp.read().decode())

except URLError as e:

if len(e.args) == 0:

print(e.code)

else:

print(e.args[0])

print("获取数据完毕")

```

关于requests库

1. 安装

利用 pip 安装

pip install requests

2. 基本请求

```

req = requests.get("http://www.baidu.com")

req = requests.post("http://www.baidu.com")

req = requests.put("http://www.baidu.com")

req = requests.delete("http://www.baidu.com")

req = requests.head("http://www.baidu.com")

req = requests.options("http://www.baidu.com")

```

1） get请求

参数是字典，我们也可以传递json类型的参数：

```

import requests

url = "http://www.baidu.com/s"

params = {'wd': '尚学堂'}

response = requests.get(url, params=params)

print(response.url)

response.encoding = 'utf-8'

html = response.text

# print(html)

```

2） post请求

参数是字典，我们也可以传递json类型的参数：

```

url = "。。。。"

formdata = {

"user": "。。。。",

"password": "。。。。"

}

response = requests.post(url, data=formdata)

response.encoding = 'utf-8'

html = response.text

# print(html)

```

3）自定义请求头部

> 伪装请求头部是采集时经常用的，我们可以用这个方法来隐藏：

headers = {'User-Agent': 'python'}

r = requests.get('。。。。', headers = headers)

print(r.request.headers['User-Agent'])

4）设置超时时间

> 可以通过timeout属性设置超时时间，一旦超过这个时间还没获得响应内容，就会提示错误

requests.get('。。。', timeout=0.001)

5）代理访问

> 采集时为避免被封IP，经常会使用代理。requests也有相应的proxies属性

import requests

proxies = {

"http": "http://10.10.1.10:3128",

"https": "https://10.10.1.10:1080",

}

requests.get("。。。", proxies=proxies)

> 如果代理需要账户和密码，则需这样

```

proxies = {

"http": "http://user:pass@10.10.1.10:3128/",

}

```

6） session自动保存cookies

> seesion的意思是保持一个会话，比如登陆后继续操作(记录身份信息) 而requests是单次请求的请求，身份信息不会被记录

```

# 创建一个session对象

s = requests.Session()

# 用session对象发出get请求，设置cookies

s.get('http://httpbin.org/cookies/set/sessioncookie/123456789')

```

7） ssl验证

# 禁用安全请求警告

requests.packages.urllib3.disable_warnings()

resp = requests.get(url, verify=False, headers=headers)

3.获取响应信息

代码 | 含义

-- | --

resp.json()|获取响应内容（以json字符串）

resp.text| 获取响应内容 (以字符串)

resp.content|获取响应内容（以字节的方式）

resp.headers|获取响应头内容

resp.url|获取访问地址

resp.encoding| 获取网页编码

resp.request.headers| 请求头内容

resp.cookie| 获取cookie

三、Cookie以及Requests库的使用

三、Cookie以及Requests库的使用

1. Cookie

1） Opener

2）Cookielib

2. URLError

关于requests库

1. 安装

2. 基本请求

1） get请求

2） post请求

3）自定义请求头部

4）设置超时时间

5）代理访问

6） session自动保存cookies

7） ssl验证

3.获取响应信息

三、Cookie以及Requests库的使用

1. Cookie

1） Opener

2）Cookielib

2. URLError

关于requests库

1. 安装

2. 基本请求

1） get请求

2） post请求

3）自定义请求头部

4）设置超时时间

5） 代理访问

6） session自动保存cookies

7） ssl验证

3.获取响应信息

5）代理访问