编码 -- python2

机器码到字符(中文字符、英文字符...)的转换关系

ASCII

ASCII(American Standard Code for Information Interchange)：单字节编码，而单字节可以表示256个不同的字符，但是ASCII只用了一半，即0-127,(\x80一下)

MBCS(multiple byte character set)：多字节字符集

因为ASCII编码只用到了\x80以下，并且不能表示中文，所以引入了一种编码机制，如果一个字节是\x80以下，使用ASCII编码。但是如果在\x80及其以上，就配合第二个字节合起来表示一个字符（至少两个字节）
这时，IBM创造一个Code Page的东西，来存放所有国家的编码（就是个统一的编码表），中国的GBK在第936页，所以页可以用CP936表示GBK
微软的ASNI就是MBCS,根据默认区域来设置默认的编码
MBCS是这些编码的统称，也可以称为DBCS(double byte character set)，因为基本上都使用两个字节

Unicode

融合所有编码、统一编码

UCS-2,两个字节（256*256）表示一个字符，后面发现会出现2个字节也有点不够，就引入UCS-4,四个字节表示一个字符,但是通常还是使用UCS-2

UCS(Unicode Charater Set)，是一张编码表，字符如果传输、存储由UTF（UCS Transformation Format）来负责
所以，最开始直接使用UCS的码位来保存，这就是UTF-16，比如，"汉"直接使用\x6C\x49保存(UTF-16-BE)，或是倒过来使用\x49\x6C保存(UTF-16-LE)。

如果大家遵循这个标准的话，美国人不乐意了，因为他们日常编码（机器码-->英文字符）只需要一字节就够了，但是大家都用的话，美国人不用就会被局限，所以他们也得用，用的话就会造成多余的内存消耗 ...于是UTF-8现世（变长的Unicode编码）

前提知识：当你打开一个文件的时候，你首先需要指定编码方式，然后系统会根据指定的编码来解码文件内容。之所以我们没有遇见，是因为系统会帮我们默认一种编码
打开notepad.exe-->点击文件-->打开

GIF.gif

如果默认使用UTF-8编码保存数据，则会在文件加上BOM头
BOM_UTF8 '\xef\xbb\xbf'
BOM_UTF16_LE '\xff\xfe'
BOM_UTF16_BE '\xfe\xff'

BOM(Byte Order Mark),字节顺序标记，用来指定编码方式的。

举个栗子：为什么记事本保存'姹塧'后，打开文件会显示'汉a'？

1、首先明确我们的区域默认是GBK（也可以是:CP936），也就是ANSI使用的这个代码页编码

2018-09-30_102324.png

cmd命令行属性的选项列表

2、另存为ANSI编码的文件。

2018-09-30_102812.png

3、保存文件内容时，使用GBK(CP936)编码保存，输出显示使用GBK解码，没问题，正常解码（输出的内容默认是decode("GBK")，也就是去CP936页找到具体的中文字符来显示）

2018-09-30_103315.png

前提条件：微软虽然保存使用ANSI(中文版windows是：CP936)来保存，但是当他的记事本解码时，默认先用UTF-8测试，看是否可以使用UTF-8解码成功，如果成功就返回

就是这种解码策略，造成的这个bug

将gbk编码后的内容，使用"utf-8"解码，刚好是"汉a"的utf-8编码的内容

2018-09-30_104743.png

小结： 各国文字就是一种字符，使用不同的编码表，就转化成了不同长度的十六进制数

python2.x编码问题

python中有str类型，其实是字节串，是中文字符查询Unicode码表(编码)后的，再经过区域编码（中国是CP936）转换后的内容，这里我们就把字符串对应的Unicode码表后的内容理解为真正的字符串，str类型是区域编码后的内容

https://www.cnblogs.com/huxi/archive/2010/12/05/1897271.html

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,098评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,213评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,960评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,519评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,512评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,533评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,914评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,574评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,804评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,563评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,644评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,350评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,933评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,908评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,146评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,847评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,361评论 2赞 342