浅谈 UTF-8 编码

ASCII、GBK、Unicode 与 UTF-8

在计算机内部，所有信息最终都是一个二进制值。每一个二进制位（bit）有 0 和 1 两种状态，因此八个二进制位就可以组合出 256 种状态，这被称为一个字节（byte）。也就是说，一个字节一共可以用来表示 256 种不同的状态，每一个状态对应一个符号，就是 256 个符号，从 00000000 到 11111111。

上个世纪 60 年代，美国制定了一套基于拉丁字母的计算机编码系统，用于显示现代英文。称为 ASCII（American Standard Code for Information Interchange，美国信息交换标准代码），一直沿用至今。

ASCII 一共规定了 128 个字符的编码，在计算机中常用一个字节表示，字节最前面的一位统一规定为0，后面 7 位来表示具体的码点(code point)。值得一提的是在 ASCII 中码点就是在 ASCII 字符集中的序号，例如大写的字母A在 ASCII 字符集中对应的二进制是01000001，而它的 ASCII 码点为 65，刚好一一对应。

虽然英语用 ASCII 编码就够了，但是对于其他语言，ASCII 是不够的。例如汉字就多达 10 万左右，因此中国政府就推出了 GB 2312（信息交换用汉字编码字符集·基本集，国标)，其中主要包含了两部分，即编码字符集和编码方式。具体细节这里就不赘述，但是简单来说只有 UTF-16 这种编码方式的 Unicode。值得一提的是 GB 2312 本身的字符集标准理论上最多可以表示 256 x 256 = 65536 个字符，所以实际上目前我们常用的是GBK（《汉字内码扩展规范(GBK)》1.0 版）这个字符集，不过 GBK 本身不是一个国标，是微软推出的一个扩展（操作系统的发展远远超过国家制定标准的发展，操作系统厂商不得不先解决人民的一个痛点），所以它并没有后面的那个号。

那么什么是刚才提到的 Unicode？正如前面所说的中国政府推出了 GB 2312 字符集，那么其他国家、跨国公司自然也会推出自己的字符集。如果我们把字符集想象成一个教室，每个课桌上坐的学生就是字符，而每个学生的学号为码点，不难想象不同的教室会有各自给学生编学号的规则，同一个学生在不同的教室可能坐在不同的位置上，自然同一个学号在不同的教室找到的很有可能是不同的学生。所以人们迫切需要一种规则，可以把世界上所有的学生都放进同一个教室，每个学生都有一个独一无二的学号，这样就能方便的找到对应的学生，这就是 Unicode 字符集，就像它的名字都表示的，这是一种所有字符的字符集。

但是这样又引出了一系列问题，首先 Unicode 作为一个独立的机构，希望能推动全球文字编码和字符集标准都统一，但又不能废除各地方性的编码方案。Unicode 选择创建了一套完全独立标记方式——Unicode scalar values，这个方案显示与我们常见 ASCII 等内码数值方案完全不同，然后为了兼容其他主流方案，Unicode 推出了 Unicode 转换格式（Unicode Transformation Format，简称为 UTF），常见的有 UTF-8、UTF-16 和 UTF-32。其中 32 是一个固定四字节的编码方案，他的码点与 Unicode scalar values 是一一对应的，比较漂亮；16 是由双字节和四字节切换的方案；8 是变长的，单字节时兼容 ASCII。再者早期 Unicode 其实并没有想到会进来这么多的字符，比如 👨👩👧（家庭）这个 emoji，由于种种原因人们不能满足只由一个男人+女人+女孩/男孩这种形式的家庭，不得不继续加上 👩👩👦(女人、女人、男孩)，👩👩👧(女人、女人、女孩)，👩👩👧👦(女人、女人、女孩、男孩)，👨👨👧👦 家庭 (男人、男人、女孩、男孩)，👨👨👧👧 家庭 (男人、男人、女孩、女孩)……后来肤色也不能固定为白人，还得有黄种人，黑人，外星人之类的。

出于经济（能用 ASCII 表示的英文用 UTF-32 固定 4 字节的方案会占用额外的空间）和发展（当然可能四字节也不一定能装下越来越多的 Unicode 字符）的角度，UTF-8 目前成为了使用最广的一种 Unicode 编码方式。

UTF-8 规则

UTF-8 的编码规则很简单，只有二条：

对于单字节的符号，字节的第一位设为0，后面 7 位为这个符号的码点。因此对于英语字母，UTF-8 编码和 ASCII 编码是相同的。
对于n字节的符号（n > 1），第一个字节的前n位都设为1，第n + 1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的码点。

Unicode 和 UTF-8 之间的转换关系表 ( x 字符表示码点占据的位 )

码点的位数	码点起值	码点终值	字节序列	Byte 1	Byte 2	Byte 3	Byte 4	Byte 5	Byte 6
7	U+0000	U+007F	1	`0xxxxxxx`
11	U+0080	U+07FF	2	`110xxxxx`	`10xxxxxx`
16	U+0800	U+FFFF	3	`1110xxxx`	`10xxxxxx`	`10xxxxxx`
21	U+10000	U+1FFFFF	4	`11110xxx`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`
26	U+200000	U+3FFFFFF	5	`111110xx`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`
31	U+4000000	U+7FFFFFFF	6	`1111110x`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`

需要注意的问题

中文在 UTF-8 中并不一定长三个字节

笔者经常会看到一些经验丰富的程序员会认为一个中文字符在 GBK 中是两个字节，转为 UTF-8 是三个字节。所以 UTF-8 中中文字符的长度是三个字节，实际上并不然，需要看这个这个字符是不是在 Unicode 的基本面上，非常见字可能会占 4 个字节（UTF-8 可能有 1~4 个字节），因为 GBK 标准提出的时间早，所以基本上都在 Unicode 的基本面上。
计算 UTF-8 编码的字符串长度不要想当然

由于 Cocos2d-x 原生并没有提供计算 UTF-8 的 API，笔者见过很多奇思妙想的方式计算中英混合字符串长度的方式。例如假设中英混合字符串的每个字符都占四个字节；调用原生 OC、Java 库函数 String 来计算长度等。但是得到长度后可能需要截取字符串，截取多长的参数又拿不准。而且目前主流手机都支持输入 emoji，当玩家输入的文字中有大量 emoji 时截取的效果就可能非常的不理想。

计算 UTF-8 编码字符串长度的实例

#include <iostream>

static inline size_t utf8Length(const char *s)
{
  size_t i = 0, j = 0;
  while (s[i])
  {
    //if ((s[i] & 0b11000000) != 0b10000000) j++;
    if ((s[i] & 0xc0) != 0x80)
      j++;
    i++;
  }
  return j;
}

int main()
{
  const auto &utf8 =
      u8"苍天有井独自空，松柏孤岛唯赏枫。武园枯藤空留兰，星落天川遥映瞳。";
  auto size = utf8Length(utf8);
  std::cout << size << std::endl;
  return 0;
}

32

Process finished with exit code 0

最后编辑于：2022.06.16 14:53:01

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,126评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,254评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,445评论 0赞 341
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,185评论 1赞 278
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,178评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,970评论 1赞 284
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,276评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,927评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,400评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,883评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,997评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,646评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,213评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,204评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,423评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,423评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,722评论 2赞 345

浅谈 UTF-8 编码

ASCII、GBK、Unicode 与 UTF-8

UTF-8 规则

需要注意的问题

计算 UTF-8 编码字符串长度的实例

推荐阅读更多精彩内容