str、unicode、bytes和编码

在Java界也算是老司机了,基本理解Unicode、UTF8、GBK等等的概念和关系。在Python 2.7里遇到的编码问题还是让老夫虎躯一震。在Java里str存的始终都是Unicode,所以理论上只要getBytes里指定的编码能支持给到字符,就能转成对应的编码。做为一个Python新手,一开始我也是这么理解的。

于是,当str.decode('utf-8')报错时让我产生了很多疑惑。直到我发觉不应该把对等到Java的String,而是对应到特定编码的字节数组。strunicode的转换关系才算理解。

不过马上新的困惑就袭来了,到现在依然没有答案。如果str理解为编码好的字节的话,那bytes是什么,和str什么区别?

官方文档说,bytes只是str的别名,在命令行测试了下,

>>> bytes == str
True

看起来确实是一个东西,问题是如果只是别名,那为什么要提供两个类型呢? 有了解这个问题的大神欢迎留言或者站内信帮忙解释一下,以解心中疑惑。

Python3拨乱反正了,str对应的是unicode,和Java中类似,bytes是编码后的字节。解决让我混淆的bytes和str的问题。

1. 编码,又是编码

1.1 在控制台定义变量
>>> v = '中'
>>> v
'\xd6\xd0'
1.2 用decode('utf-8')报错
>>> v.decode('utf-8')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "D:\programs\Python27\lib\encodings\utf_8.py", line 16, in decode
    return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf8' codec can't decode byte 0xd6 in position 0: invalid continuation byte

产生的原因是Python 2.7中str本身存储的是字符串对应的编码后的字节数组,采用的编码和系统的默认编码有关,以下命令我们拿到默认编码:

>>> sys.stdout.encoding
'cp936'

cp936也就是我们常见的GBK,str里存储的实际是'中'字在GBK编码下,对应的字节数组,如果我们这个时候尝试'utf-8'来转换成unicode显然是不对的。

1.3 问题的根源

正确的做法是先通过GBK解码,转成unicode,然后通过unicode字符再次编码为'utf-8',代码如下:

>>> r = v.decode('gbk').encode('utf-8')
>>> r
'\xe4\xb8\xad'
>>> print(r)
涓

可是输出问什么不是'中',而是乱码呢,实际是因为控制台本身是自带编码的,encode后的str里边存储的是字节数组,输出时会按控制台编码sys.stdout.encoding输出,然后导致的乱码。

如果此时我们使用一个'utf-8'编码的Python文件,再次输出r对应的值,可以看到他实际上就是'中'字

#!/usr/bin/env python
# -*- coding: utf-8 -*-

v = '\xe4\xb8\xad'
print(v)
image.png
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,921评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,635评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,393评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,836评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,833评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,685评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,043评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,694评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,671评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,670评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,779评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,424评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,027评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,984评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,214评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,108评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,517评论 2 343