python的汉字编码原理

汉字编码问题是困扰工程师们的一大难题,在最近做的spider项目中,遇到了不少相关的麻烦,于是花了一些时间来研究了一下python的字符编码的问题.

1.程序内的编码问题

在没有声明默认编码方式的情况下,python使用ASCII字符来编码,也就是说,默认只支持ASCII从0-127这128个字符,其他非拉丁的字符,如汉字,希伯来语,日语韩语等语言的字符是没有办法显示的,在读取或者在程序的字符串中出现的时候,会出现报错的情况,这个时候,需要指定默认字符集来解决这个问题
可以使用:
#-*- coding: UTF-8 -*-
也可以使用:
# coding: UTF-8
在文件的开头(import)的前面来表明程序所使用的字符集,(utf-8可以换成其他字符集如有需要如GBK,big5,latin等等

2.有关字符集的问题

在计算机出现的早期,使用的字符集是旧版的ASCII字符集,在这种字符集中,使用7位表示一个字符,相应的,共128个可用的字符.后来,ASCII标准扩展到8位,同时支持一些其他拉丁语族的语言如法语西班牙语中不同于拉丁文的字符,同时包括了希腊文,还有一些其他字符如积分号等等.

但是仍然不够,亚洲,非洲有大量的非拉丁语族,希腊语族语言,并且很多使用字符文字而不是字母文字,这就造成了更大的麻烦。人们为了解决这个问题,就发明了针对不同文字的字符集,比如汉字的GB2312,GBk,繁体字的BIG5,ISO8859,还有如Latin等其他编码方式,这些编码方式规定了一定的数值映射到不同的字符上面。

但是这也造成了一定的困难,就是,相同的编码,用不同的字符集解释,变成了不同的字符,于是出现了бЇЯАзЪСЯ"、"�????????之类的令人生畏的乱码

于是人们再次提出了解决方案,那就是unicode编码,unicode是一个类的编码方式,但是都具有一个特点,就是一个编码对应唯一字符,防止解释成为不同字符。

3.UTF-8编码

现在最常用,也是国际通行的标准是unicode 8 也称为 UTF-8编码,基本编码方式如下

使用一至六个字节为每个字符编码(尽管如此,2003年11月UTF-8被RFC 3629重新规范,只能使用原来Unicode定义的区域,U+0000到U+10FFFF,也就是说最多四个字节):

  • 128个US-ASCII字符只需一个字节编码(Unicode范围由U+0000至U+007F)。

  • 带有附加符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文及它拿字母则需要两个字节编码(Unicode范围由U+0080至U+07FF)。

  • 其他基本多文种平面(BMP)中的字符(这包含了大部分常用字,如大部分的汉字)使用三个字节编码(Unicode范围由U+0800至U+FFFF)。

  • 其他极少使用的Unicode 辅助平面的字符使用四至六字节编码(Unicode范围由U+10000至U+1FFFFF使用四字节,Unicode范围由U+200000至U+3FFFFFF使用五字节,Unicode范围由U+4000000至U+7FFFFFFF使用六字节)。

注意,utf-8是一种变长编码,也就是不能一个一个字节来读,来解释的。UTF-8是ASCII的一个。因为一个纯ASCII字符串也是一个合法的UTF-8字符串,所以现存的ASCII文本不需要转换。为传统的扩展ASCII字符集设计的软件通常可以不经修改或很少修改就能与UTF-8一起使用。

4.python的str和unicode的问题

这两者有什么区别呢?

  • str是字符组成的序列

  • unicode 是unicode编码单元字节组成的序列

两者的相互转换关系
str decode成为unicode
unicode encode成为str

s="abc"
print type(s)
c=s.decode()
print type(c)


得到结果

<type 'str'>
<type 'unicode'>

注意转换时必须指定字符集

5.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,830评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,992评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,875评论 0 331
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,837评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,734评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,091评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,550评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,217评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,368评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,298评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,350评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,027评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,623评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,706评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,940评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,349评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,936评论 2 341

推荐阅读更多精彩内容

  • 字符集和编码简介 在编程中常常可以见到各种字符集和编码,包括ASCII,MBCS,Unicode等字符集。确切的说...
    兰山小亭阅读 8,440评论 0 13
  • 饭桌上,最精致的下酒菜,是好奇心。 我:电梯这个行业,你做了多久? 他:17年。初中毕业开始的。 我:都说同时按住...
    GoodNineNine阅读 619评论 0 2
  • 一直觉得自己有很严重的强迫症,对一切都无比挑剔,吹毛求疵。我一直痛恨会迟到的人,厌恶着草率敷衍的人,鄙视着不懂装懂...
    微尘迷离阅读 192评论 0 0
  • 今天天气不错 明天天气也会很好 那后天呢?
    Homo_Sapiens阅读 206评论 1 1
  • 今天吃过午饭,我坐在炕上(一种农村里和床类似的东西)和我老妈邀功请赏:“妈,你看我做的饭好不好吃?” 老妈特别不走...
    顾林深深深阅读 431评论 10 6