code point & code unit

Unicode

是世界通用的字符编码标准。它包括字符集(包含来自世界各国各地的语言、文字)和编码方案(将每个字符唯一映射到一个二进制编码);比如:总共有 A-Z[字符集] 26个字符,使用0-25来进行编码,即A-0,B-1...[映射关系]。
  这样以后,0-25每个编码都是一个code point,即码字;如何将这些码字在计算机中表示?[这里我们只是一个很简单的例子,现实中的字符集数量远远大于26,可能需要多个字节序列才能表示。因此就存在在计算机中如何表示的问题]。根据表示方法的不同,又区分为我们常见的UTF-8、UTF-16和UTF-32编码方式。

  • UTF-8:使用变长的字节序列来表示字符;某个字符(对应一个code point)可能使用1-4个字节才能表示;这样1个字节就是一个code unit,即代码单元。代表最小的可用来识别一个合法字符的最小字节数;即一个code point可能由1-4个code unit组成,code unit为一个字节
  • UTF-16:使用变长字节序列来表示字符;某个字符(对应一个code point)可能使用2个或者4个字符来表示;这样2个字节就是一个code unit;因为2个字节序列是最小的能够识别一个code point的单位;即一个code point可能由1-2个code unit组成,code unit为2个字节
  • UTF-32:定长的4个字节表示一个字符;一个code point对应一个4字节的序列,这样4个字符数就是一个code unit。即一个code point由1个code unit组成,code unit为4个字节

A Unicode code unit is a bit size used by a particular Unicode encoding.For example UTF-8 has a code unit size of 8 bits and UTF-16 has 16 and UTF-32 has 32.To represent a character (i.e. a code point, which is a Unique integer assigned to each character) one or many code units may be required depending on the encoding.Java uses UTF-16 and this means the code unit size is 16 bits. Unicode has over 1 million code points (10FFFF+1 in hex). 16 bits can represents only FFFF+1 code points. (This range is called the BMP (Basic Multilingual Plane. It contains all the commonly used character in the world and some more).So to represent code points outside the BMP the UTF-16 encoding specifies surrogate pairs. For this two special ranges are defined within the BMP. In UTF-16 any character outside the BMP is represented by two 16 bit code units in this range. (In fact surrogate characters are defined only for UTF-16). Now it should be clear that certain characters may require two code units in UTF-16.So counting 16 bit code units will not yield the correct "length of characters". String.length() returns the number of code units in the String.Since 1.5 you can use codePointCount(int beginIndex, int endIndex) to get the length of the characters. It will count a surrogate pair as one character.

Java中的String类

Java JVM中的String类使用的是UTF-16编码方式。
String.length():方法返回的是字符串中char的字符个数;注意每个字符为2字节长度。
String.codePointCount():方法返回字符串中的码字个数。一个码字即对应一个Unicode字符。可能为2个字节长度或者4字节长度的。
以上两个方法的返回值可能是不相等的。如果字符串中仅包含基本多语言平面(BMP)的Unicode字符,则两者值相等。否则code point count值是小于length的,因为一个不是BMP的字符,需要两个char(一个代理对,包括前导代理和后尾代理构成)来表示。

char String.charAt(index):方法返回index位置的字符,注意该index取值是基于length方法的。
int String.codePointAt(index):方法返回index位置的码字。
以上两个方法一个返回char,一个返回int,两者可能是不相同的。也是因为超出BMP范围的字符需要两个char来表示。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,271评论 5 466
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,725评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,252评论 0 328
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,634评论 1 270
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,549评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 47,985评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,471评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,128评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,257评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,233评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,235评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,940评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,528评论 3 302
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,623评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,858评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,245评论 2 344
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,790评论 2 339

推荐阅读更多精彩内容