你真的知道 Python的字符串是什么吗？

在《详解Python拼接字符串的七种方式》这篇推文里，我提到过，字符串是程序员离不开的事情。后来，我看到了一个英文版本的说法：

There are few guarantees in life: death, taxes, and programmers needing to deal with strings.

它竟然把程序员处理字符串跟死亡大事并列了，可见这是多么命中注定……

回头看其它文章，我发现这种说法得到了佐证，因为我在无意中已零零碎碎地提及了字符串的很多方面，例如：字符串读写文件、字符串打印、字符串不可变性、字符串Intern机制、字符串拼接、是否会取消字符串，等等。而这些，还只能算字符串面目的冰山一角。

既然如此，那干脆再单独写写Python的字符串吧。这篇内容可能会很基（li）础（lun），并不是什么“骚操作”或“冷知识”，权当是一份温故而求知新的笔记。

1、Python字符串是什么？

根据维基百科定义：字符串是由零个或多个字符组成的有限序列。而在Python 3中，它有着更明确的意思：字符串是由Unicode码点组成的不可变序列（Strings are immutable sequences of Unicode code points.）

字符串是一种序列，这意味着它具备序列类型都支持的操作：

你真的知道 Python的字符串是什么吗？

字符串序列还具备一些特有的操作，限于篇幅，按下不表。预告一下，下一篇《你真的知道Python的字符串怎么用吗？》将会展开介绍，敬请期待……

字符串序列是一种不可变序列，这意味着它不能像可变序列一样，进行就地修改。例如，在字符串“Python”的基础上拼接“Cat”，得到字符串“PythonCat”，新的字符串是一个独立的存在，它与基础字符串“Python”并没有关联关系。

你真的知道 Python的字符串是什么吗？

字符串这种序列与其它序列（如列表、元组）的不同之处在于，它的“元素”限定了只能是Unicode码点。Unicode码点是什么呢？简单理解，就是用Unicode编码的字符。那字符是什么呢？字符是人类书写系统的各类符号，例如阿拉伯数字、拉丁字母、中文、日文、藏文、标点符号、控制符号（换行符、制表符等）、其它特殊符号（@#￥%$*等等）。那Unicode编码又是什么呢？Unicode别名是万国码、国际码，它是一种适用性最广的、将书写字符编码为计算机数字的标准。

总所周知，在最底层的计算机硬件世界里，只有0和1。那么，怎么用这个二进制数字，来表示人类的文化性的字符呢？这些字符数量庞大，而且还在日益增长与变化，什么样的编码方案才是最靠谱的呢？

历史上，人类创造了多种多样的字符编码标准，例如ASCII（1963年）编码，以西欧语言的字符为主，它的缺点是只能编码128个字符；例如GB2312（1981年），这是中国推出的编码标准，在兼容ASCII标准的基础上，还加入了对日文、俄文等字符的编码，但缺点仍是编码范围有限，无法表示古汉语、繁体字及更多书写系统的字符。

Unicode编码标准于1991年推出，至今迭代到了第11版，已经能够编码146个书写系统的130000个字符，可谓是无所不包，真不愧是“国际码”。Unicode编码其实是一个二进制字符集，它建立了从书写字符映射成唯一的数字字符的关系，但是，由于各系统平台对字符的理解差异，以及出于节省空间的考虑，Unicode编码还需要再做一次转换，转换后的新的二进制数字才能作为实际存储及网络传输时的编码。

这种转换方式被称为Unicode转换格式（Unicode Transformation Format，简称为UTF），它又细分为UTF-8、UTF-16、UTF-32等等方式。我们最常用的是UTF-8。为什么UTF-8最常用呢？因为它是可变长度的编码方案，针对不同的字符使用不同的字节数来编码，例如编码英文字母时，只需要一个字节（8个比特），而编码较复杂的汉字时，就会用到三个字节（24个比特）。

你真的知道 Python的字符串是什么吗？

二进制的编码串可以说是给机器阅读的，为了方便，我们通常会将其转化为十六进制，例如“中”字的Unicode编码可以表示成0x4e2d ，其UTF-8编码可以表示为0xe4b8ad，'0x'用于开头表示十六进制，这样就简洁多了。不过，UTF-8编码的结果会被表示成以字节为单位的形式，例如“中”字用UTF-8编码后的字节形式是\xe4\xb8\xad 。

Python中为了区分Unicode编码与字节码，分别在开头加“u”和“b”以示区分。在Python 3中，因为Unicode成了默认编码格式，所以“u”被省略掉了。

你真的知道 Python的字符串是什么吗？

总结一下，Python 3 中的字符串是由Unicode码点组成的不可变序列，也即是，由采用Unicode标准编码的字符组成的不可变序列。Unicode编码将书写系统的字符映射成了计算机二进制数字，为了方便，通常显示为十六进制；在运算内存中，字符以Unicode编码呈现，当写入磁盘或用于网络传输时，一般采用UTF-8方式编码。

在Python 2中，因为历史包袱，即Python先于Unicode编码而诞生，所以其编码问题是个大难题。幸好抛弃Python 2已成大势所趋，所以我就不再对此做介绍或比对了。

2 、Python字符串 VS Java字符串

虽然不提纵向版本间的差异，但是，我想将Python字符串与其它编程语言做一个横向对比。我觉得这会是挺好玩的事。通过跨语言的比较，也许我们能加深对一个事物（字符串）的理解，还可能受到启发，得到对“编程语言”及“编程哲学”的领悟。

由于本人才疏学浅，本文就只对两点皮毛特性作说明，欢迎读者斧正和补充。

（1）字符串的定义方式

Python的字符串是内置类型，所以使用起来很方便，有如下三种定义方式：

你真的知道 Python的字符串是什么吗？

Java的字符串不是内置类型，它属于对象，需要通过String类来创建。不过，正因为字符串太常用，所以Java特意预定义了一个字符串类String，使得程序员也可以像这样来定义：String name = "Python猫"; ，而不必这样写：String name = new String("Python猫"); 。

Java的字符串只能写在双引号内，不具备Python中单双引号混用的灵活。至于三引号的多行字符串表示法，Java程序员表示羡慕得要死，那种痛苦，受过折磨的人最懂。写出来让Python程序员开心一下：

你真的知道 Python的字符串是什么吗？

为什么Java不支持多行字符串、什么时候支持多行字符串？此类问题在Python程序员眼里，可能很费解，但它绝对能排进“Java程序员最希望能实现的特性”的前列。好不容易，官方有计划在Java 11 实现，但今年9月发布的Java 11 仍是没有，现在改计划到Java 12 了。

（2）单个字符与字符序列

Java中其实也有单引号的使用，用在char类型上，例如char c = 'A'; 。char是一种内置类型，表示单个用Unicode编码的字符。Python中没有char类型，字符串类型通吃一切。

前面说到，Python的字符串是一种字符序列，而Java的字符串并不是一种序列，要表示相近的概念的话，就得用到字符数组或者字符串数组，例如：

char[] a = { 'a', 'b', 'c'};
String[] str = new String[]{"1","2","3"};

字符数组和字符串数组是一种序列，但并不是字符串，它们之间如果要相互转换，还是挺麻烦的。另外，说是序列，但Java的序列操作绝对无法跟Python相比，别的不说，就上面提及的几个基础操作，试问Java能否实现、实现起来要花费多大力气？

最后来个Ending，关于“Python字符串到底是什么”就说到这啦，希望对你有所帮助。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,530评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 86,403评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,120评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,770评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,758评论 5赞 367
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,649评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,021评论 3赞 398
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,675评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,931评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,659评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,751评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,410评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,004评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,969评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,042评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,493评论 2赞 343

你真的知道 Python的 字符串是什么吗？

1、Python字符串是什么？

推荐阅读更多精彩内容

你真的知道 Python的字符串是什么吗？