由requests发送gbk编码表单引发的对python编码的剖析

首先必须得承认,这是个很偏的需求。因为现在只有一些很古老的网站才在用gbk编码,连提交表单都是奇葩的gbk编码。想看解决方案,可以跳过前面的问题重现与分析。

原以为在 Python3 就不会遇上Python2那么多的编码问题了,事实也确实如此,Python3统一了编码,这点确实方便了很多。但是还是在昨晚爬学校教务处的时候,遇到了一个比较奇特的问题。

我需要发送一个gbk编码的表单,但是我想了很多办法都发送失败了。
看了很多文章,大概懂了一点关于Python3的编码问题,也确实是由于我不够熟练。

url = ''
data = {'area': '本部'}
res = requests.post(url, data=data)
print(res.content.decode('gbk'))

这样输出的是utf-8的编码,传入的也是utf-8的编码。
但是请求却收不到正确的响应,因为网站并不能解析utf-8的表单。
所以需要把 本部 两个字转换成gbk的编码。

data = {'area': '本部'.encode('utf-8')}  # 失败,服务器端接收到的还是utf-8的编码

所以二进制的也不行,再decode成gbk试试

url = 'http://www......'
data = {'area': '本部'.encode('utf-8').decode('gbk')}
res = requests.post(url, data=data)
print(res.content.decode('gbk'))

报错

data = {'area': '本部'.encode('utf-8').decode('gbk')}
UnicodeDecodeError: 'gbk' codec can't decode byte 0xac in position 2: illegal multibyte sequence

于是在Python3, 又遇到了神奇的UnicodeDecodeError。百思不得其解,为什么二进制的字符就不能转换成gbk呢。
然后我就打开了熟悉的百度,开始搜索问题,看过很多文章,都讲的不是很懂。自己又慢慢开始测试,一边抓包验证一边改变编码。
试过很多次之后,终于成功了。

url = 'http://www......'
data = {'area': '本部'.encode('gbk')}
res = requests.post(url, data=data)
print(res.content.decode('gbk'))

这个操作让我很不解,为什么原来是utf-8的编码,可以直接通过gbk的方式编码成二进制,这在Python2是肯定会报错的,因为编码都不统一。但是程序并没有报错,而且确实请求成功了。
联系到前面的UnicodeDecodeError,又思考了一下。
结论如下:

1.Python3 和Python2编码解码的性质不同

  • 在Python2中,decode 是把字符串解码成Unicode码,encode则是把Unicode码转换成对应的编码格式。

所以如果要把utf-8的编码转换成gbk的编码,在声明了编码是utf-8的情况下,
只需要print '你好'.decode('utf-8').encode('gbk')就可以成功输出gbk编码到控制台。

Python2编码演示

那为什么'你好'.decode('utf-8')输出的和直接输出'你好'是相同的呢。因为ipython默认采用了utf-8的编码(大部分IDE的控制台默认编码都是utf-8),所以输出的Unicode,会被转变成utf-8来输出,于是大家看到的输出就是相同的了。


  • 在Python3中,decode 是把 二进制字符串 解码成Unicode码,encode则是把Unicode码转换成对应的二进制字符串

所以如果把utf-8的二进制字符串decode成gbk会报错,因为根本格式不一样。而utf-8就可以encode('gbk')转变成gbk的二进制字符串。因为Python已经把默认的编码从2.7的ASCII改成了3.x的Unicode了。

Python3编码演示

a.encode('gbk').decode('gbk')为什么又不能输出乱码了呢,因为decode了之后gbk的二进制编码字符串已经变回了Unicode了,所以想要输出乱码是不可能的。
但是这又让我很苦恼,因为我要用requests发送一个乱码的gbk编码的字符串(再次吐槽这种落后的网站)。试过很多办法都不行,最后直接传入gbk的二进制编码就成功了。所以就引出了关于requests表单编码的第二个总结。


2.requests是可以接收二进制格式的表单内容的

 看过requests的文档,说到了可以传输文件,但是我没想到普通的二进制字符串也可以传输,并且能够正确编码。看来requests的表单处理流程是

接收到参数,判断参数类型。
 如果是字符串,就采用utf-8的编码解码,并进行urlencode同样的方法来转义表单内容。
 如果是二进制编码,就直接进行urlencode转义表单内容。

补充一个关于urlencode的知识。HTTP请求在发送表单的时候,会把中文等等非ASCII字符转义成可以传送的字符。常见的就是%BA%CC这种一般人看不懂的字符。原理也很简单。
就拿你好来说

UTF-8编码下:
   二进制字符 你好 是: b'\xe4\xbd\xa0\xe5\xa5\xbd'
   urlencode之后是:     %e4%bd%a0%e5%a5%bd
GBK编码下:
   二进制字符 你好 是:b'\xc4\xe3\xba\xc3'
   urlencode之后是:    %c4%e3%ba%c3

这就应该很明显了。urlencode就是把二进制字符串的 \x 换成了 %
所以请求的时候,编码很重要,编码错误很可能导致服务端拿不到正确的请求内容,从而爬虫也接收不到正确的响应内容。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,772评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,458评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,610评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,640评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,657评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,590评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,962评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,631评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,870评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,611评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,704评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,386评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,969评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,944评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,179评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,742评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,440评论 2 342

推荐阅读更多精彩内容