字符集和字符编码

乱码

乱码是怎么出现的呢？对同一组二进制数据，不同的编码会解析出不同的字符，用对了编码，解析出来的字符组成的文字是有意义的，用错了编码，解析出来的字符组成的文字是没意义的，也就是通常所说的乱码。

一句话：编码和解码时用了不同或者不兼容的字符集。

字符

是各种符号和文字的总称。包括各国家文字、标点符号、图形符号、数字等。字符是一个信息单位，一个数字是一个字符，一个文字是一个字符，一个标点符号也是一个字符。

字节

字节是一个8bit的存储单元，0～255，根据字符编码的不同一个字符可以是单个字节也可以是多个字节。

字符集

字符的集合就是字符集。英语可以看成一个字符集，中文可以看成一个字符集，日语也可以看成一个字符集。不同集合支持的字符范围自然也不一样，譬如ASCII只支持英文，GB18030支持中文等等。在字符集中，有一个码表的存在，每一个字符在各自的字符集中对应着一个唯一的码。但是同一个字符在不同字符集中的码是不一样的，譬如字符“中”在Unicode和GB18030中就分别对应着不同的码(20013与54992)。

字符编码

由于计算机只认得电压高低，所以信息都是以0、1存在计算机里。信息通过转换成二进制比特流就可以在计算机上存储传输。字符集和字符编码一般一一对应。字符集与字符编码都是一一对应的。但一个例外就是Unicode字符集，它有多种编码实现(UTF-8,UTF-16,UTF-32等)。

对于一个字符集来说要正确编码转码一个字符需要三个关键元素：字库表（character repertoire）、编码字符集（coded character set）、字符编码（character encoding form）。其中字库表是一个相当于所有可读或者可显示字符的数据库，字库表决定了整个字符集能够展现表示的所有字符的范围。编码字符集，即用一个编码值code point来表示一个字符在字库中的位置。字符编码，将编码字符集和实际存储数值之间的转换关系。一般来说都会直接将code point的值作为编码后的值直接存储。

ASCII

American Standard Code for Information Interchange ，即美国信息互换标准代码。使用7位二进制共可以表示128个码位0~127，可表示阿拉伯数字，大小写字母，特殊字符。一个字符用一个字节表示即可。

ASCII表

汉字编码

GB2312，GBK（GuoBiao KuoZhan），GB18030，都兼容ASCII码，都用两个字节表示，高位低位。

Unicode字符集

Unicode 就是一种编码字符集，编码方式可以有多种：UTF-8,UTF-16,UTF-32等

UTF-8编码

变长的字节编码方式（有控制位）。

单字节字符：0xxx xxxx

如果一个字节的第一位为0，那么代表当前字符为单字节字符，占用一个字节的空间。0之后的所有部分（7个bit）代表在Unicode中的序号。

双字节字符：110x xxxx 10xx xxxx

如果一个字节以110开头，那么代表当前字符为双字节字符，占用2个字节的空间。110之后的所有部分（5个bit）加上后一个字节的除10外的部分（6个bit）代表在Unicode中的序号。且第二个字节以10开头

三字节字符：1110 xxxx 10xx xxxx 10xx xxxx

如果一个字节以1110开头，那么代表当前字符为三字节字符，占用3个字节的空间。110之后的所有部分（5个bit）加上后两个字节的除10外的部分（12个bit）代表在Unicode中的序号。且第二、第三个字节以10开头

多字节字符：

如果一个字节以10开头，那么代表当前字节为多字节字符的第二个字节。10之后的所有部分（6个bit）和之前的部分一同组成在Unicode中的序号。如：

4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

5字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

6字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

UTF-8 最多可用到6个字节。

不同字符编码的转换

如果是相同字符集，由于相同字符集中的码都是一样的，所以只需要针对不同的编码方式转变而已。譬如UTF-16转UTF-8，首先会取到当前需要转换的字符的Unicode码，然后将当前的编码方式由双字节(有4字节的拓展就不赘述了)，变为变长的1，2，3等字节

如果是不同的字符集，由于不同字符集的码是不一样的，所以需要各自的码表才能进行转换。譬如UTF-16转GBK，首先需要取到当前需要转换的字符的Unicode码，然后根据Unicode和GBK码表一一对应的关系(只有部分共同都有的字符才能在码表中查到)，找到它对应的GBK码，然后用GBK的编码方式(双字节)进行编码

对比

GBK 和 UTF-8

1. 区别：字节不同

GBK 中英文统一两字节

UTF-8 英文1个字节，中文3个字节

2. 区分：可用 BOM（Byte Order Mark）标记

3. 互换：必须通过 Unicode 编码

字符集合：GB2312 < GBK < UTF-8

4. 各自的适用场合：

英文字符多时，用 UTF-8 省空间

中文多时，用 GBK 省空间

GBK 是中国的，在国家标准 GB2312 基础上扩充的，通用性差

UTF-8 世界的，国际编码，通用性好

UTF-32 和 UTF-8

Unicode 只规定了每个字符的码点，如何表示则就涉及到了编码方法。

UTF-32：一个码点用4个字节表示，完全对应 Unicode 编码（前面加两字节的0喽）

优点：查找效率高

缺点：浪费空间，比相同的 ASCII 编码文件大四倍。

UTF-8：是一种变长的编码方法，字符长度从1个字节-4个字节不等。

越常用的字符，字节越短；

最前面的128个字符，只用1个字节表示，和ASCII码完全相同。

最后编辑于：2017.12.11 06:37:38

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,723评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,080评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,604评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,440评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,431评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,499评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,893评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,541评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,751评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,547评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,619评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,320评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,890评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,896评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,137评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,796评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,335评论 2赞 342