首先必须得承认,这是个很偏的需求。因为现在只有一些很古老的网站才在用gbk编码,连提交表单都是奇葩的gbk编码。想看解决方案,可以跳过前面的问题重现与分析。
原以为在 Python3 就不会遇上Python2那么多的编码问题了,事实也确实如此,Python3统一了编码,这点确实方便了很多。但是还是在昨晚爬学校教务处的时候,遇到了一个比较奇特的问题。
我需要发送一个gbk编码的表单,但是我想了很多办法都发送失败了。
看了很多文章,大概懂了一点关于Python3的编码问题,也确实是由于我不够熟练。
url = ''
data = {'area': '本部'}
res = requests.post(url, data=data)
print(res.content.decode('gbk'))
这样输出的是utf-8的编码,传入的也是utf-8的编码。
但是请求却收不到正确的响应,因为网站并不能解析utf-8的表单。
所以需要把 本部 两个字转换成gbk的编码。
data = {'area': '本部'.encode('utf-8')} # 失败,服务器端接收到的还是utf-8的编码
所以二进制的也不行,再decode成gbk试试
url = 'http://www......'
data = {'area': '本部'.encode('utf-8').decode('gbk')}
res = requests.post(url, data=data)
print(res.content.decode('gbk'))
报错
data = {'area': '本部'.encode('utf-8').decode('gbk')}
UnicodeDecodeError: 'gbk' codec can't decode byte 0xac in position 2: illegal multibyte sequence
于是在Python3, 又遇到了神奇的UnicodeDecodeError
。百思不得其解,为什么二进制的字符就不能转换成gbk呢。
然后我就打开了熟悉的百度,开始搜索问题,看过很多文章,都讲的不是很懂。自己又慢慢开始测试,一边抓包验证一边改变编码。
试过很多次之后,终于成功了。
url = 'http://www......'
data = {'area': '本部'.encode('gbk')}
res = requests.post(url, data=data)
print(res.content.decode('gbk'))
这个操作让我很不解,为什么原来是utf-8的编码,可以直接通过gbk的方式编码成二进制,这在Python2是肯定会报错的,因为编码都不统一。但是程序并没有报错,而且确实请求成功了。
联系到前面的UnicodeDecodeError,又思考了一下。
结论如下:
1.Python3 和Python2编码解码的性质不同
在Python2中,decode 是把字符串解码成Unicode码,encode则是把Unicode码转换成对应的编码格式。
所以如果要把utf-8的编码转换成gbk的编码,在声明了编码是utf-8的情况下,
只需要print '你好'.decode('utf-8').encode('gbk')
就可以成功输出gbk编码到控制台。
那为什么'你好'.decode('utf-8')
输出的和直接输出'你好'
是相同的呢。因为ipython默认采用了utf-8的编码(大部分IDE的控制台默认编码都是utf-8),所以输出的Unicode,会被转变成utf-8来输出,于是大家看到的输出就是相同的了。
在Python3中,decode 是把 二进制字符串 解码成Unicode码,encode则是把Unicode码转换成对应的二进制字符串。
所以如果把utf-8的二进制字符串decode成gbk会报错,因为根本格式不一样。而utf-8就可以encode('gbk')转变成gbk的二进制字符串。因为Python已经把默认的编码从2.7的ASCII改成了3.x的Unicode了。
a.encode('gbk').decode('gbk')
为什么又不能输出乱码了呢,因为decode了之后gbk的二进制编码字符串已经变回了Unicode了,所以想要输出乱码是不可能的。
但是这又让我很苦恼,因为我要用requests发送一个乱码的gbk编码的字符串(再次吐槽这种落后的网站)。试过很多办法都不行,最后直接传入gbk的二进制编码就成功了。所以就引出了关于requests表单编码的第二个总结。
2.requests是可以接收二进制格式的表单内容的
看过requests的文档,说到了可以传输文件,但是我没想到普通的二进制字符串也可以传输,并且能够正确编码。看来requests的表单处理流程是
接收到参数,判断参数类型。
如果是字符串,就采用utf-8的编码解码,并进行urlencode同样的方法来转义表单内容。
如果是二进制编码,就直接进行urlencode转义表单内容。
补充一个关于urlencode的知识。HTTP请求在发送表单的时候,会把中文等等非ASCII字符转义成可以传送的字符。常见的就是%BA%CC这种一般人看不懂的字符。原理也很简单。
就拿你好
来说UTF-8编码下: 二进制字符 你好 是: b'\xe4\xbd\xa0\xe5\xa5\xbd' urlencode之后是: %e4%bd%a0%e5%a5%bd GBK编码下: 二进制字符 你好 是:b'\xc4\xe3\xba\xc3' urlencode之后是: %c4%e3%ba%c3
这就应该很明显了。urlencode就是把二进制字符串的
\x
换成了%
。
所以请求的时候,编码很重要,编码错误很可能导致服务端拿不到正确的请求内容,从而爬虫也接收不到正确的响应内容。