ASCII、GBK、Unicode 与 UTF-8
在计算机内部,所有信息最终都是一个二进制值。每一个二进制位(bit)有 0
和 1
两种状态,因此八个二进制位就可以组合出 256 种状态,这被称为一个字节(byte)。也就是说,一个字节一共可以用来表示 256 种不同的状态,每一个状态对应一个符号,就是 256 个符号,从 00000000
到 11111111
。
上个世纪 60 年代,美国制定了一套基于拉丁字母的计算机编码系统,用于显示现代英文。称为 ASCII(American Standard Code for Information Interchange,美国信息交换标准代码),一直沿用至今。
ASCII 一共规定了 128 个字符的编码,在计算机中常用一个字节表示,字节最前面的一位统一规定为0
,后面 7 位来表示具体的码点(code point)。值得一提的是在 ASCII 中码点就是在 ASCII 字符集中的序号,例如大写的字母A
在 ASCII 字符集中对应的二进制是01000001
,而它的 ASCII 码点为 65,刚好一一对应。
虽然英语用 ASCII 编码就够了,但是对于其他语言,ASCII 是不够的。例如汉字就多达 10 万左右,因此中国政府就推出了 GB 2312(信息交换用汉字编码字符集·基本集,国标),其中主要包含了两部分,即编码字符集和编码方式。具体细节这里就不赘述,但是简单来说只有 UTF-16 这种编码方式的 Unicode。值得一提的是 GB 2312 本身的字符集标准理论上最多可以表示 256 x 256 = 65536 个字符,所以实际上目前我们常用的是GBK(《汉字内码扩展规范(GBK)》1.0 版)这个字符集,不过 GBK 本身不是一个国标,是微软推出的一个扩展(操作系统的发展远远超过国家制定标准的发展,操作系统厂商不得不先解决人民的一个痛点),所以它并没有后面的那个号。
那么什么是刚才提到的 Unicode?正如前面所说的中国政府推出了 GB 2312 字符集,那么其他国家、跨国公司自然也会推出自己的字符集。如果我们把字符集想象成一个教室,每个课桌上坐的学生就是字符,而每个学生的学号为码点,不难想象不同的教室会有各自给学生编学号的规则,同一个学生在不同的教室可能坐在不同的位置上,自然同一个学号在不同的教室找到的很有可能是不同的学生。所以人们迫切需要一种规则,可以把世界上所有的学生都放进同一个教室,每个学生都有一个独一无二的学号,这样就能方便的找到对应的学生,这就是 Unicode 字符集,就像它的名字都表示的,这是一种所有字符的字符集。
但是这样又引出了一系列问题,首先 Unicode 作为一个独立的机构,希望能推动全球文字编码和字符集标准都统一,但又不能废除各地方性的编码方案。Unicode 选择创建了一套完全独立标记方式——Unicode scalar values,这个方案显示与我们常见 ASCII 等内码数值方案完全不同,然后为了兼容其他主流方案,Unicode 推出了 Unicode 转换格式(Unicode Transformation Format,简称为 UTF),常见的有 UTF-8、UTF-16 和 UTF-32。其中 32 是一个固定四字节的编码方案,他的码点与 Unicode scalar values 是一一对应的,比较漂亮;16 是由双字节和四字节切换的方案;8 是变长的,单字节时兼容 ASCII。再者早期 Unicode 其实并没有想到会进来这么多的字符,比如 👨👩👧(家庭)这个 emoji,由于种种原因人们不能满足只由一个男人+女人+女孩/男孩这种形式的家庭,不得不继续加上 👩👩👦(女人、女人、男孩),👩👩👧(女人、女人、女孩),👩👩👧👦(女人、女人、女孩、男孩),👨👨👧👦 家庭 (男人、男人、女孩、男孩),👨👨👧👧 家庭 (男人、男人、女孩、女孩)……后来肤色也不能固定为白人,还得有黄种人,黑人,外星人之类的。
出于经济(能用 ASCII 表示的英文用 UTF-32 固定 4 字节的方案会占用额外的空间)和发展(当然可能四字节也不一定能装下越来越多的 Unicode 字符)的角度,UTF-8 目前成为了使用最广的一种 Unicode 编码方式。
UTF-8 规则
UTF-8 的编码规则很简单,只有二条:
- 对于单字节的符号,字节的第一位设为
0
,后面 7 位为这个符号的码点。因此对于英语字母,UTF-8 编码和 ASCII 编码是相同的。 - 对于
n
字节的符号(n > 1
),第一个字节的前n
位都设为1
,第n + 1
位设为0
,后面字节的前两位一律设为10
。剩下的没有提及的二进制位,全部为这个符号的码点。
Unicode 和 UTF-8 之间的转换关系表 ( x 字符表示码点占据的位 )
码点的位数 | 码点起值 | 码点终值 | 字节序列 | Byte 1 | Byte 2 | Byte 3 | Byte 4 | Byte 5 | Byte 6 |
---|---|---|---|---|---|---|---|---|---|
7 | U+0000 | U+007F | 1 | 0xxxxxxx |
|||||
11 | U+0080 | U+07FF | 2 | 110xxxxx |
10xxxxxx |
||||
16 | U+0800 | U+FFFF | 3 | 1110xxxx |
10xxxxxx |
10xxxxxx |
|||
21 | U+10000 | U+1FFFFF | 4 | 11110xxx |
10xxxxxx |
10xxxxxx |
10xxxxxx |
||
26 | U+200000 | U+3FFFFFF | 5 | 111110xx |
10xxxxxx |
10xxxxxx |
10xxxxxx |
10xxxxxx |
|
31 | U+4000000 | U+7FFFFFFF | 6 | 1111110x |
10xxxxxx |
10xxxxxx |
10xxxxxx |
10xxxxxx |
10xxxxxx |
需要注意的问题
-
中文在 UTF-8 中并不一定长三个字节
笔者经常会看到一些经验丰富的程序员会认为一个中文字符在 GBK 中是两个字节,转为 UTF-8 是三个字节。所以 UTF-8 中中文字符的长度是三个字节,实际上并不然,需要看这个这个字符是不是在 Unicode 的基本面上,非常见字可能会占 4 个字节(UTF-8 可能有 1~4 个字节),因为 GBK 标准提出的时间早,所以基本上都在 Unicode 的基本面上。
-
计算 UTF-8 编码的字符串长度不要想当然
由于 Cocos2d-x 原生并没有提供计算 UTF-8 的 API,笔者见过很多奇思妙想的方式计算中英混合字符串长度的方式。例如假设中英混合字符串的每个字符都占四个字节;调用原生 OC、Java 库函数 String 来计算长度等。但是得到长度后可能需要截取字符串,截取多长的参数又拿不准。而且目前主流手机都支持输入 emoji,当玩家输入的文字中有大量 emoji 时截取的效果就可能非常的不理想。
计算 UTF-8 编码字符串长度的实例
#include <iostream>
static inline size_t utf8Length(const char *s)
{
size_t i = 0, j = 0;
while (s[i])
{
//if ((s[i] & 0b11000000) != 0b10000000) j++;
if ((s[i] & 0xc0) != 0x80)
j++;
i++;
}
return j;
}
int main()
{
const auto &utf8 =
u8"苍天有井独自空,松柏孤岛唯赏枫。武园枯藤空留兰,星落天川遥映瞳。";
auto size = utf8Length(utf8);
std::cout << size << std::endl;
return 0;
}
32
Process finished with exit code 0