Ken Thompson: 从ASCII码到UTF-8


肯-汤普逊(Kenneth Lane Thompson),1943年出生在美国新奥尔良,1960年就读加州UC Berkeley并取得电子工程硕士学位,1966年加入贝尔实验室参与研发Multics(多使用者分时作业系统),期间汤普逊以早期的程式语言BCPL为基础,设计出既简单又更接近硬件的B语言(取BCPL的首字母)。由于Multics系统过于庞大和复杂,贝尔实验室撤出了联合开发计划。1970年汤普逊找到一台PDP-7机器,花了一个多月用自己设计的B语言编写出全新的操作系统UNICS(Uniplexed Information and Computing System),即Unix系统的前身。1972年贝尔实验室的同事D.M.Ritchie对B语言进行改造和强化,与汤普逊共同设计出一种新的程式语言C,取BCPL的第二个字母。1973年汤普逊用Ritchie的C语言重写UNICS,安装在PDP-11的机器上,即现在UNIX系统的鼻祖。

Kenneth Lane Thompson

ASCII码(American Standard Code for Information Inerchange),是基于拉丁字母用于显示现代英语和其他西欧语言的计算机编码系统。

ASCII码

计算机这个学科是从美国发展起来的,20世纪二战之後,美国超越法国、德国成为全球科技中心,美国的通用语言是英语,而代表当时最发达生产力的西方世界对计算机使用英语是没有抵触的,因此信息交换标准代码采用美国英语字符发表时在1967年,解决在电子计算机中数据在存储和运算时使用二进制数表示的符号编码一致性,避免相互通信之间造成的信息混乱。

标准ASCII码(也称基础ASCII码)使用一个字节中的7位元,表示美式英语中使用的特殊控制符、标点符号、大写字母、数字和小写字母,最高位元常用作奇偶效验,是在代码传送过程中检验是否出现错误的一种方法。1986年ASCII规范最後一次更新,定义所有的128个字符(即ANSI字符集,ISO 8859-1-1987),新规范使用全部8位元,当最高位元为1时可增加128个字符,这些字符成为Extended ASCII,扩展ASCII码允许将附加的128个字符用于特殊字符、外来语字符和图形符号,譬如法语中字母上方的注音符号,欧洲国家使用256个的字符扩展ASCII码作为编码体系指定各自的标准,但基本ASCII码的规范保持一致。

20世纪80年代亚洲国家引进西方计算机技术,由于东亚、西亚地区的文字符号远远超过256个字符,ASCII码的字符数量局限性被暴露出来,各国首先通过增加字节数量来满足字符数量上的要求,用两个字节表示一个符号,字节最高元置1区别于标准ASCII码,然後跟随第二个字节,因此理论上可表示128*256=32768个字符,其中有中国大陆的GB2312简化汉字码,中国台湾地区的BIG5繁体汉字码,日本电脑的Shift_JIS码,在整个世界范围内出现了数百中编码方案。

在创建UNICODE标准前,对软件开发者而言,基于一个国家编码方案开发的程序移植到另一个国家,标准ASCII码之外的字符转换经常出现错误,必须重新检查修改,因此世界需要统一的编码标准替代上百种相互冲突的字符编码方式。1991年诞生了第一个Unicode版本,为世界上所有的字符设置一个唯一的码点CodePoint,通过这个整数ID来访问和操作字符。世界各国多个语种的字符放在UCS(Universal character Set)中形成了多语种字符集,一个平面字符集由两个字节表示,可容纳256*256=65536个字符,其中0号平面为基本多语种平面,其余为辅助多语种平面。

UTF(Unicode Transformation Format)针对基本多语种平面字符可采用UTF-16编码格式,即用两个字节表示。对于辅助多语种平面字符则需采用UTF-32编码格式,即四个字节表示。由于不同计算机体系结构采用的字节排列顺序不同,UTF-16、UTF-32编码格式分别有big-endian和little-endian两种结构,为了避免与基本ASCII码发生冲突,UTF-16、UTF-32编码格式必须加上前置字符说明以示区别。

UTF-8(eight bit Unicode transformation format),汤普逊Thompson和罗布-派克Rob Pike一起开发基于UNIX的新操作系统Plan 9,作为工作的一部分他们创造了UTF-8这种可变长度的字符编码,1992年9月在新泽西州一列餐车上描绘出UTF-8设计要点。UTF-8可以用来表示Unicode标准中的任何字符,而且其编码中的第一个字节仍与基本ASCII码相容,使得原来处理ASCII字符的软件无需变动,或者进行少部分修改後即可继续使用。

UTF-8有单字节、双字节、三字节和四字节四种结构,单字节采用7位元的ASCII码,最高有效位元为0,其他三种结构第8位最高有效元均置1,区别于标准ASCII码,使原ASCII码成为UTF-8编码格式的一个真子集。UTF-8多字节变长结构可以容纳除基本平面外所有辅助平面的字符数量,而且具有编码自我同步特点,即不必从字串的首字节读取,也能找到字符间的分界, 同时规避不同架构中字节排列顺序的结构问题。

UTF-8编码已发展成为当今计算机和网路世界中通用的字符编码格式。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,921评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,635评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,393评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,836评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,833评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,685评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,043评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,694评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,671评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,670评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,779评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,424评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,027评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,984评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,214评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,108评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,517评论 2 343

推荐阅读更多精彩内容