由requests发送gbk编码表单引发的对python编码的剖析

首先必须得承认，这是个很偏的需求。因为现在只有一些很古老的网站才在用gbk编码，连提交表单都是奇葩的gbk编码。想看解决方案，可以跳过前面的问题重现与分析。

原以为在 Python3 就不会遇上Python2那么多的编码问题了，事实也确实如此，Python3统一了编码，这点确实方便了很多。但是还是在昨晚爬学校教务处的时候，遇到了一个比较奇特的问题。

我需要发送一个gbk编码的表单，但是我想了很多办法都发送失败了。
看了很多文章，大概懂了一点关于Python3的编码问题，也确实是由于我不够熟练。

url = ''
data = {'area': '本部'}
res = requests.post(url, data=data)
print(res.content.decode('gbk'))

这样输出的是utf-8的编码，传入的也是utf-8的编码。
但是请求却收不到正确的响应，因为网站并不能解析utf-8的表单。
所以需要把本部两个字转换成gbk的编码。

data = {'area': '本部'.encode('utf-8')}  # 失败，服务器端接收到的还是utf-8的编码

所以二进制的也不行，再decode成gbk试试

url = 'http://www......'
data = {'area': '本部'.encode('utf-8').decode('gbk')}
res = requests.post(url, data=data)
print(res.content.decode('gbk'))

报错

data = {'area': '本部'.encode('utf-8').decode('gbk')}
UnicodeDecodeError: 'gbk' codec can't decode byte 0xac in position 2: illegal multibyte sequence

于是在Python3，又遇到了神奇的UnicodeDecodeError。百思不得其解，为什么二进制的字符就不能转换成gbk呢。
然后我就打开了熟悉的百度，开始搜索问题，看过很多文章，都讲的不是很懂。自己又慢慢开始测试，一边抓包验证一边改变编码。
试过很多次之后，终于成功了。

url = 'http://www......'
data = {'area': '本部'.encode('gbk')}
res = requests.post(url, data=data)
print(res.content.decode('gbk'))

这个操作让我很不解，为什么原来是utf-8的编码，可以直接通过gbk的方式编码成二进制，这在Python2是肯定会报错的，因为编码都不统一。但是程序并没有报错，而且确实请求成功了。
联系到前面的UnicodeDecodeError，又思考了一下。
结论如下：

1.Python3 和Python2编码解码的性质不同

在Python2中，decode 是把字符串解码成Unicode码，encode则是把Unicode码转换成对应的编码格式。

所以如果要把utf-8的编码转换成gbk的编码，在声明了编码是utf-8的情况下，
只需要print '你好'.decode('utf-8').encode('gbk')就可以成功输出gbk编码到控制台。

Python2编码演示

那为什么'你好'.decode('utf-8')输出的和直接输出'你好'是相同的呢。因为ipython默认采用了utf-8的编码(大部分IDE的控制台默认编码都是utf-8)，所以输出的Unicode，会被转变成utf-8来输出，于是大家看到的输出就是相同的了。

在Python3中，decode 是把 二进制字符串 解码成Unicode码，encode则是把Unicode码转换成对应的二进制字符串。

所以如果把utf-8的二进制字符串decode成gbk会报错，因为根本格式不一样。而utf-8就可以encode('gbk')转变成gbk的二进制字符串。因为Python已经把默认的编码从2.7的ASCII改成了3.x的Unicode了。

Python3编码演示

a.encode('gbk').decode('gbk')为什么又不能输出乱码了呢，因为decode了之后gbk的二进制编码字符串已经变回了Unicode了，所以想要输出乱码是不可能的。
但是这又让我很苦恼，因为我要用requests发送一个乱码的gbk编码的字符串(再次吐槽这种落后的网站)。试过很多办法都不行，最后直接传入gbk的二进制编码就成功了。所以就引出了关于requests表单编码的第二个总结。

2.requests是可以接收二进制格式的表单内容的

看过requests的文档，说到了可以传输文件，但是我没想到普通的二进制字符串也可以传输，并且能够正确编码。看来requests的表单处理流程是

接收到参数，判断参数类型。
如果是字符串，就采用utf-8的编码解码，并进行urlencode同样的方法来转义表单内容。
如果是二进制编码，就直接进行urlencode转义表单内容。

补充一个关于urlencode的知识。HTTP请求在发送表单的时候，会把中文等等非ASCII字符转义成可以传送的字符。常见的就是%BA%CC这种一般人看不懂的字符。原理也很简单。
就拿你好来说
UTF-8编码下：
   二进制字符 你好 是: b'\xe4\xbd\xa0\xe5\xa5\xbd'
   urlencode之后是：     %e4%bd%a0%e5%a5%bd
GBK编码下:
   二进制字符 你好 是:b'\xc4\xe3\xba\xc3'
   urlencode之后是:    %c4%e3%ba%c3
这就应该很明显了。urlencode就是把二进制字符串的 \x 换成了 %。
所以请求的时候，编码很重要，编码错误很可能导致服务端拿不到正确的请求内容，从而爬虫也接收不到正确的响应内容。

最后编辑于：2018.04.02 23:49:05

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,772评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,458评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,610评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,640评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,657评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,590评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,962评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,631评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,870评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,611评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,704评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,386评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,969评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,944评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,179评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,742评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,440评论 2赞 342

由requests发送gbk编码表单引发的对python编码的剖析

由requests发送gbk编码表单引发的对python编码的剖析

1.Python3 和Python2编码解码的性质不同

在Python2中，decode 是把字符串解码成Unicode码，encode则是把Unicode码转换成对应的编码格式。

在Python3中，decode 是把二进制字符串解码成Unicode码，encode则是把Unicode码转换成对应的二进制字符串。

2.requests是可以接收二进制格式的表单内容的

推荐阅读更多精彩内容

由requests发送gbk编码表单引发的对python编码的剖析

1.Python3 和Python2编码解码的性质不同

在Python2中，decode 是把字符串解码成Unicode码，encode则是把Unicode码转换成对应的编码格式。

在Python3中，decode 是把 二进制字符串 解码成Unicode码，encode则是把Unicode码转换成对应的二进制字符串。

2.requests是可以接收二进制格式的表单内容的

推荐阅读更多精彩内容

在Python3中，decode 是把二进制字符串解码成Unicode码，encode则是把Unicode码转换成对应的二进制字符串。