专业术语
统一码/国际通用码(Unicode)
统一码/国际通用码联盟(Unicode Consortium)
字符编码(Characters Encoding):字符编码(英语:Character encoding)也称字集码,是把字符集中的字符编码为指定集合中某一对象(例如:比特模式、自然数序列、8位组或者电脉冲),以便文本在计算机中存储和通过通信网络的传递。
字符集(CharacterSets)
乱码(Mojibake):由於编码之间的相容性及应用程序如浏览器的支援不一,会发生编码错误以致显示内容不正确,又称乱码(Mojibake)
汉字(Han)
表情符号(Emoji)
统一汉字(Unihan)
中日韩三种语言所用的汉字,又称CJK,後期以有越南用的汉字加入,称CJKV。
Unicode的定义
Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发,1994年正式公布。
Unicode 的常见表达形式
一般而言,Unicode编码的书写表达形式以U+开头,接16进制符,如Unicode的笑脸😀:
U+1F600
Unicode列表时如Unicode 5.0的全部表情符号都采取这种编码书写方式
URL在编码时,会把非ASCII字符及一些保留字符做转换,加以%符号以16进制符表示,如:
%F0%9F%98%80
(URL编码工具可用URL Decoder/Encoder或ATOOL)