不得不知道的 Python 字符串编码相关的知识

链接：www.cnblogs.com/Xjng/p/5093905.html

开发经常会遇到各种字符串编码的问题，例如报错SyntaxError: Non-ASCII character 'ascii' codec can't encode characters in position 0-2: ordinal not in range(128)，又例如显示乱码。

由于之前不知道编码的原理，遇到这些情况，就只能不断的用各种编码decode和encode

今天整理一个python中的各种编码问题的原因和解决方法，以后遇到编码问题，就不会像莽头苍蝇一样，到处乱撞了。

下面的python环境都是在2.7，听说在3.X中已经没有编码的问题了，因为所有的字符串都是unicode了，之后装个3.X试一下。

如果不知道什么是decode和encode，建议先看一下：这里（http://www.cnblogs.com/Xjng/p/3809781.html）

一、encoding的作用

1. 在python文件中，如果有中文，就一定要在文件的第一行标记使用的编码类型，例如 #encoding=utf-8 ,就是使用utf-8的编码，这个编码有什么作用呢？会改变什么呢？

demo1.py

# encoding=utf-8
test='测试test'
print type(test)
print repr(test)

输出：

<type 'str'>
'\xe6\xb5\x8b\xe8\xaf\x95test'

我们通过print把一个变量输出到终端的时候，IDE或者系统一般都会帮我们的输出作转换，例如中文字符会转成中文，所以就看不到变量的原始内容。

repr函数可以看这个变量的给python看的形式，也就是看到这个变量的原始内容

从上面的输出可以看到test变量的str类型，它的编码是utf-8的（怎么知道是utf-8，请看第三部分），也就是的encoding类型

如果我们把encoding改为gbk

demo2.py

# encoding=gbk
test='测试test'
print type(test)
print repr(test)

输出

<type 'str'>
'\xb2\xe2\xca\xd4test'

这样test的编码类型就变为gbk了。

所以这个encoding会决定在这个py文件中定义的字符串变量的编码方式。

而如果一个变量是从其他py文件导入，或者从数据库，redis等读取出来的话，它的编码又是怎样的？

a.py

# encoding=utf-8
test='测试test'

b.py

# encoding=gbk
from a import test
print repr(test)

输出

'\xe6\xb5\x8b\xe8\xaf\x95test'

a.py中定义test变量，a.py的编码方式是utf-8,b.py的编码方式是gbk,b从a中导入test，结果显示test依然为utf-8编码，也就是a.py的编码

所以encoding只会决定本py文件的编码方式，不会影响导入的或者从其他地方读取的变量的编码方式

二、常见报错codec can't encode characters的原因

python的程序经常会报错 codec can't encode characters 或 codec can't decode characters

在python中定义一个字符串，

import sys
print sys.getdefaultencoding() # 输出 ascii
unicode_test=u'测试test'
print repr(str(unicode_test))

上面的代码会报错

'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)

除了str方法外，如果操作两个都有中文的字符串，也会报错，但是只有其中一个有中文，却不会报错

unicode_test = u'测试test%s{0}'
 
print '%stest' % unicode_test  # 不会报错
print '%s测试' % unicode_test  #会报错
 
print unicode_test % 'test'  #不会报错
print unicode_test % '测试'  #会报错
 
print unicode_test.format('test') #不会报错
print unicode_test.format('测试') #会报错
 
print unicode_test.split('test')  #不会报错
print unicode_test.split('测试')  #报错
 
print unicode_test + 'test'  #不会报错
print unicode_test + '测试'  #会报错

为什么会这样？

这原因下面再解答，这里先列出这个报错的解决方法：

解决方法是：把系统的默认编码设置为utf-8

import sys
reload(sys)
sys.setdefaultencoding('utf-8')
print sys.getdefaultencoding()
unicode_test=u'测试test'

demo3.py

# encoding=utf-8
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
unicode_test=u'测试test'
utf8_test='测试test'
gbk_test=unicode_test.encode('gbk')
 
#合并unicode和utf-8
merge=unicode_test+utf8_test
print type(merge)
print repr(merge)
 
#合并unicode和gbk
merge=unicode_test+gbk_test
print type(merge)
print repr(merge)
print merge
 
#合并utf-8和gbk
merge=utf8_test+gbk_test
print type(merge)
print repr(merge)
print merge

这里定义三个分别是unicode，utf-8和gbk编码的字符串，unicode_test,utf8_test和gbk_test

1.合并unicode和utf-8的时候，输出：

<type 'unicode'>
u'\u6d4b\u8bd5test\u6d4b\u8bd5test'

合并的结果的编码是unicode编码。

2.合并unicode和gbk，会报错：

'utf8' codec can't decode byte 0xb2 in position 0: invalid start byte

所以我们可以推测：

在python对两个字符串进行操作的时候，如果这两个字符串有一个是unicode编码，有一个是非unicode编码，python会将非unicode编码的字符串decode成unicode编码，再进行字符串操作

例如合并字符串的操作可以写成以下的function：

def merge_str(str1, str2):
    if isinstance(str1, unicode) and not isinstance(str2, unicode):
        str2 = str2.decode(sys.getdefaultencoding())
    elif not isinstance(str1, unicode) and isinstance(str2, unicode):
        str1 = str1.decode(sys.getdefaultencoding())
    return str1 + str2

PS:sys.getdefaultencoding()的初始值是ascii

所以，codec can't encode（decode） characters这个报错是encode或decode这两个方法产生的，而这个方法的参数是sys.getdefaultencoding()。如果用ascii编码对带有中文的字符串进行解码，就会报错。所以修改系统的默认编码可以避免这个报错。

当执行 str 操作时，python会执行unicode_test.encode(sys.getdefaultencoding()) ，所以也会报错。

3.#合并utf-8和gbk的时候却不会报错，python会直接把两个字符串合并，不会有decode或encode的操作，但是输出的时候，部分字符串会乱码。

demo4.py

# encoding=gbk
import sys
 
reload(sys)
sys.setdefaultencoding('utf-8')
unicode_test = u'测试test'
utf8_test = unicode_test.encode('utf-8')
gbk_test = unicode_test.encode('gbk')
 
merge = utf8_test + gbk_test
print type(merge)
print repr(merge)
print merge

这里文件的encoding是gbk，sys.getdefaultencoding()设置为utf-8，结果是：

<type 'str'>
'\xe6\xb5\x8b\xe8\xaf\x95test\xb2\xe2\xca\xd4test'
测试test����test

即gbk的部分乱码了。所以输出的时候会按照sys.getdefaultencoding()的编码来解码。

三、怎么判断一个字符串（string）的编码方式

1.没有办法准确地判断一个字符串的编码方式，例如gbk的“\aa”代表甲，utf-8的“\aa”代表乙，如果给定“\aa”怎么判断是哪种编码？它既可以是gbk也可以是utf-8

2.我们能做的是粗略地判断一个字符串的编码方式，因为上面的例如的情况是很少的，更多的情况是gbk中的’\aa’代表甲，utf-8中是乱码，例如�，这样我们就能判断’\aa’是gbk编码，因为如果用utf-8编码去解码的结果是没有意义的

3.而我们经常遇到的编码其实主要的就只有三种：utf-8，gbk，unicode

unicode一般是 \u 带头的，然后后面跟四位数字或字符串，例如 \u6d4b\u8bd5 ，一个\u对应一个汉字

utf-8一般是 \x 带头的，后面跟两位字母或数字，例如 \xe6\xb5\x8b\xe8\xaf\x95\xe5\x95\x8a ，三个 \x 代表一个汉字

gbk一般是 \x 带头的，后面跟两位字母或数字，例如 \xb2\xe2\xca\xd4\xb0\xa1，两个个 \x 代表一个汉字

4.使用chardet模块来判断

import chardet
raw = u'我是一只小小鸟'
print chardet.detect(raw.encode('utf-8'))
print chardet.detect(raw.encode('gbk'))

输出：

{'confidence': 0.99, 'encoding': 'utf-8'}
{'confidence': 0.99, 'encoding': 'GB2312'}

chardet模块可以计算这个字符串是某个编码的概率，基本对于99%的应用场景，这个模块都够用了。

四、string_escape和unicode_escape

1. string_escape

在str中，\x是保留字符，表示后面的两位字符表示一个字符单元（暂且这么叫，不知道对不对），例如'\xe6'，一般三个字符单元表示一个中文字符

所以在定义变量时，a='\xe6\x88\x91',是代表定义了一个中文字符“我”，但是有时候，我们不希望a这个变量代表中文字符，而是代表3*4=12个英文字符，可以使用encode('string_escape')来转换：

'\xe6\x88\x91'.encode('string_escape')='\\xe6\\x88\\x91'

decode就是反过来。

转换前后的类型都是string。

还有一个现象，定义a='\x',a='\x0'都是会报错ValueError: invalid \x escape的，而定义a='\a',即反斜杠后面不是跟x，都会没问题，而定义a='\x00'，即x后面跟两个字符，也是没问题的。

2. unicode_escape

同理在unicode中，\u是保留字符，表示后面的四个字符表示一个中文字符，例如b=u'u6211'，表示“我:”，同理我们希望b变量，表示6个英文字符，而不是一个中文字符，就可以使用encode(‘unicode-escape’)来转换：

u'u6211'.encode('unicode-escape')='\u6211'

注意encode前是unicode，转换后是string。

在unicode中，\u是保留字符，但是在string中，就不是了，所以只有一个反斜杠，而不是两个。

decode就是反过来。

同理，a='\u'也是会报错的

3. 例子

#正常的str和unicode字符
str_char='我'
uni_char=u'我'
print repr(str_char) # '\xe6\x88\x91'
print repr(uni_char) #  u'\u6211'
 
# decode('unicode-escape')
s1='\u6211'
s2=s1.decode('unicode-escape')
print repr(s1) # '\\u6211'
print repr(s2) # u'\u6211'
 
# encode('unicode-escape')
s1=u'\u6211'
s2=s1.encode('unicode-escape')
print repr(s1) # u'\u6211'
print repr(s2) # '\\u6211'
 
# decode("string_escape")
s1='\\xe6\\x88\\x91'
s2=s1.decode('string_escape')
print repr(s1) # '\\xe6\\x88\\x91'
print repr(s2) # '\xe6\x88\x91'
 
# encode("string_escape")
s1='\xe6\x88\x91'
s2=s1.encode('string_escape')
print repr(s1) # '\xe6\x88\x91'
print repr(s2) # '\\xe6\\x88\\x91'

4. 应用

内容是unicode，但是type是str，就可以使用decode("unicode_escape")转换为内容和type都是unicode

s1='\u6211'
s2=s1.decode('unicode-escape')

内容是str，但是type是unicode,就可以使用encode("unicode_escape").decode("string_escape")转换为内容和type都是str

s1=u'\xe6\x88\x91'
s2=s1.encode('unicode_escape').decode("string_escape")

最后编辑于：2017.12.05 05:47:06

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,324评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,303评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,192评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,555评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,569评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,566评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,927评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,583评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,827评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,590评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,669评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,365评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,941评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,928评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,159评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,880评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,399评论 2赞 342

不得不知道的 Python 字符串编码相关的知识

1. 在python文件中，如果有中文，就一定要在文件的第一行标记使用的编码类型，例如 #encoding=utf-8 ,就是使用utf-8的编码，这个编码有什么作用呢？会改变什么呢？

二、常见报错codec can't encode characters的原因

推荐阅读更多精彩内容