第1篇:藏书
这是我个人关于信息、书籍和算法的一些跨界思考。最早在喜马拉雅电台絮絮叨叨说了几个有声片段,但后来发现里面有很多信口开河之处,谬误甚多,所以将它们整理修订并扩充了一下。另外,比起声音和视频,以文字的方式获取信息还是效率更高一些。
我们先来谈书籍与信息。很多人很喜欢实体书,他们觉得读书就应该选这种,特别是一些较为传统的读书人更为推崇实体书。但是,对于重度书籍爱好者来说,读书固然重要,但藏书带来的负担会更大,这是实体书的一个致命缺点。
一般人的藏书量也许能摆满几个书柜,这种已经算比较多了,放在家里是一道美丽的风景线。但是当书的存量到达一定数量时,你就会觉得书的数量会对藏书带来特别大的压力,关键问题在于得有空间来容纳这些书。比如说,如果你有20到30个书柜,家里地方又宽敞,看上去挺好。但是,很快每个书柜都会填满了书籍,而且马上又会双层摆满,这样新到的书只能堆在地上、沙发上乃至于茶几上。这个例子其实并不极端,许多作家的家里都是这个样子。事实上,书柜的问题在于得一面敞开以便取用,这也造成了它空间占用量特别大。要是永远不看倒也罢了,所有书都放箱子里就好。
上海交通大学的江晓原教授独辟蹊径,虽然他家藏书甚丰,但他聪明地解决了这个问题。欧阳应霁先生给江老师写过一篇图文并茂的短文,可以看到江老师家的图书用滑动档案架存放,需要时才滑动档案架腾出空间让人进去取用,而平时它们都紧挨在一起。江老师知道书得放在二楼上,所以明智的他在设计时特别考察了楼层的承重,看看是否能承担得起这么多书。因为我们都知道书很沉的,“汗牛充栋”这个词说的就是这个意思嘛。
想要改进这一点,不妨考察一下历史。从古代到现代,书的载体和物理形态发生了极大的改变,它们越来越轻薄。即便如此,许多年来书的重量对人类而言却一直没有太大的改观。实际上书里头蕴含的信息量并不像书的重量那么明显。拿到一本纯文字的书,看上去五六百页,但书中大多数内容都是空白也就是白色背景。而这种排布方式是考虑了我们人类的生理特征,要是一页密密麻麻,恐怕绝大部分人都会得密集恐惧症了。
机器却没有这种烦恼。它可以直接阅读真正的信息,也就是书中有字的那部分,实际上这些字就是形成了语言乃至于信息论里的一个重要概念——字母表。比如说英文的字母表,有26个字母(包括大写小写),还有一些标点符号,这些字母表里的元素就构成了一本书里的基本要素。虽然有限字母表能表现的形态不是特别多,但它们的组合却是千变万化无边无际。
由于人类语言存在着较为明显的上下文模式,而且字母表不是很大,这就造成了对书籍的数据压缩(实际上是文本压缩)相对于图像或视频而言更容易而且压缩率也更大。可以考虑一个比较简单的文本表示方法,就是ASCII这种编码,例如把英文字母表的所有符号变成0和1的比特形态,再加上一些控制符号,就可以很方便地存储。
从重量上看文本压缩,从实体书到电子书的这种变化是相当惊人的。最早人们都是以光盘为例,现在一般都提的是蓝光光盘,家里的书就算再多也不怕装不下。比如一本1000页的科技图书,它的矢量格式的PDF文件也就是10MB左右,一张单层的25GB蓝光光盘能装下2560本这样的书,要是纯文学作品那就更多了。当然,我们现在更愿意使用闪存芯片,它们的容量也越来越大。从更深层次来看是信息的重量问题,不妨认为某个独立器件的存储量除以重量就是它能实现单个比特的重量,显然这也是有物理极限的。
关于信息的尺寸问题研究地更为充分,目前技术所能达到的“原子硬盘”最早由著名物理学家Feynman在There's Plenty of Room at the Bottom中提出,2016年Nature Nanotechnology所发表A kilobytere writable atomic memory这篇论文做到了原子级别的存储,能容下书的数量多得可怕,号称能在“邮票大小的硬盘中写下人类历史上所有的书籍”。事实上,Feynman的老师Wheeler早有论断“万物皆比特”,宇宙恐怕也真是比特的幻想罢了。
实际上,书籍电子化可以让我们的藏书更加完善和完美。一本实体书你从各种方式购买,包括线下渠道和网上购买,都难免会受到一些损伤,比如它的封皮和内页可能会被污损和外力伤害。对于那些有完美主义倾向的藏书家来说,他可能会千挑万选找出一本品相很好的书。在书店你可以在好多本里找一本相对完美的书,可是那些网络购买的图书怎么办?某位藏书家提到,他在海外网购图书的时候一般会一种买上三本,这样就算运输过程中外面的两本损坏,中间的那本还是完好的。这是不是有点像“重要的事情说三遍”呢,实际上这可是信息论里的(3, 1)重复码的思想啊!不过,为了对付暴力投递,这种策略还是有一定作用的。尽管挺浪费,但他为了找到完美无损的信息也是拼了。当然,要是那种特别值得一读的经典图书,买上几本也无妨,品相不好的可以平时阅读,品相完美的收藏起来就好了。
书的完美性还体现在是否有错上。一本书一旦印刷出来以后,国内一次印量是3000册(现在也有2000册的),如果其中有一个错误,那么这批书全都有错,而这个错误是无法挽回的。对于电子书的形态来说,挽回错误相对说比较容易,相当于软件找到了一个bug。一旦发现了bug,在下一版里直接更新它就好了。读者可以看到更完美的图书形态,而且可以不断更新。不过对于传统的文学作品,它的错误不是特别碍事,但科技图书的错误非常致命,如果不修订难免对书的质量和声誉造成很大的伤害。当然有人会辩解说电子书没有读书的感觉,这个可能是个人喜好的问题,但实际上电子书面临的最大问题是盗版和版权问题。实体书如果有盗版,印刷工艺可能不能媲美原版,但电子书盗版太容易,和原版是完全一致的(信息的可复制性)。目前看来,没有什么太好的图书防盗版技术,现在的国内的版权意识还不是特别强烈,尤其对于图书而言,觉得知识就是免费拿来分享的,也没有价值。不过,图书的价值和回报很难在一时看出来。未来图书的载体形态会有什么变化,究竟是实体书还是电子书,或者更高级的书,这个还是未知数。
最后我们来吐槽一下Kindle电子书,虽然它提供勘误这个功能,但是由于有些维护人员不得力,往往这个错误会存在很久。相比而言,作者自己维护的电子书就比较容易纠错,因为这是一个声誉的问题。这里不得不提到一套温瑞安的Kindle全集,里面错误还是蛮多的,不过温巨侠比较随性,也许不计较这些错误吧。但是金庸大侠就比较喜欢控制自己作品的文字,不断修改更新。噢,虽然跑题了,但是忍不住还想说一下,有错的书珍藏价值有时候其实更高,而且可以识别珍贵的初版书(first edition),就像霍桑的《红字》初版就把"repudiate"错印为"reduplicate",它只印了2500册而10天就售卖一空。当然,如果有bibliomania(藏书癖)的读者朋友,不妨看看First Editions of American Authors这本书,里面会提到很多有趣的故事。