信息•书籍•算法

第1篇:藏书

这是我个人关于信息、书籍和算法的一些跨界思考。最早在喜马拉雅电台絮絮叨叨说了几个有声片段,但后来发现里面有很多信口开河之处,谬误甚多,所以将它们整理修订并扩充了一下。另外,比起声音和视频,以文字的方式获取信息还是效率更高一些。

我们先来谈书籍与信息。很多人很喜欢实体书,他们觉得读书就应该选这种,特别是一些较为传统的读书人更为推崇实体书。但是,对于重度书籍爱好者来说,读书固然重要,但藏书带来的负担会更大,这是实体书的一个致命缺点。

一般人的藏书量也许能摆满几个书柜,这种已经算比较多了,放在家里是一道美丽的风景线。但是当书的存量到达一定数量时,你就会觉得书的数量会对藏书带来特别大的压力,关键问题在于得有空间来容纳这些书。比如说,如果你有20到30个书柜,家里地方又宽敞,看上去挺好。但是,很快每个书柜都会填满了书籍,而且马上又会双层摆满,这样新到的书只能堆在地上、沙发上乃至于茶几上。这个例子其实并不极端,许多作家的家里都是这个样子。事实上,书柜的问题在于得一面敞开以便取用,这也造成了它空间占用量特别大。要是永远不看倒也罢了,所有书都放箱子里就好。

上海交通大学的江晓原教授独辟蹊径,虽然他家藏书甚丰,但他聪明地解决了这个问题。欧阳应霁先生给江老师写过一篇图文并茂的短文,可以看到江老师家的图书用滑动档案架存放,需要时才滑动档案架腾出空间让人进去取用,而平时它们都紧挨在一起。江老师知道书得放在二楼上,所以明智的他在设计时特别考察了楼层的承重,看看是否能承担得起这么多书。因为我们都知道书很沉的,“汗牛充栋”这个词说的就是这个意思嘛。

想要改进这一点,不妨考察一下历史。从古代到现代,书的载体和物理形态发生了极大的改变,它们越来越轻薄。即便如此,许多年来书的重量对人类而言却一直没有太大的改观。实际上书里头蕴含的信息量并不像书的重量那么明显。拿到一本纯文字的书,看上去五六百页,但书中大多数内容都是空白也就是白色背景。而这种排布方式是考虑了我们人类的生理特征,要是一页密密麻麻,恐怕绝大部分人都会得密集恐惧症了。

机器却没有这种烦恼。它可以直接阅读真正的信息,也就是书中有字的那部分,实际上这些字就是形成了语言乃至于信息论里的一个重要概念——字母表。比如说英文的字母表,有26个字母(包括大写小写),还有一些标点符号,这些字母表里的元素就构成了一本书里的基本要素。虽然有限字母表能表现的形态不是特别多,但它们的组合却是千变万化无边无际。

由于人类语言存在着较为明显的上下文模式,而且字母表不是很大,这就造成了对书籍的数据压缩(实际上是文本压缩)相对于图像或视频而言更容易而且压缩率也更大。可以考虑一个比较简单的文本表示方法,就是ASCII这种编码,例如把英文字母表的所有符号变成0和1的比特形态,再加上一些控制符号,就可以很方便地存储。

从重量上看文本压缩,从实体书到电子书的这种变化是相当惊人的。最早人们都是以光盘为例,现在一般都提的是蓝光光盘,家里的书就算再多也不怕装不下。比如一本1000页的科技图书,它的矢量格式的PDF文件也就是10MB左右,一张单层的25GB蓝光光盘能装下2560本这样的书,要是纯文学作品那就更多了。当然,我们现在更愿意使用闪存芯片,它们的容量也越来越大。从更深层次来看是信息的重量问题,不妨认为某个独立器件的存储量除以重量就是它能实现单个比特的重量,显然这也是有物理极限的。

关于信息的尺寸问题研究地更为充分,目前技术所能达到的“原子硬盘”最早由著名物理学家Feynman在There's Plenty of Room at the Bottom中提出,2016年Nature Nanotechnology所发表A kilobytere writable atomic memory这篇论文做到了原子级别的存储,能容下书的数量多得可怕,号称能在“邮票大小的硬盘中写下人类历史上所有的书籍”。事实上,Feynman的老师Wheeler早有论断“万物皆比特”,宇宙恐怕也真是比特的幻想罢了。

实际上,书籍电子化可以让我们的藏书更加完善和完美。一本实体书你从各种方式购买,包括线下渠道和网上购买,都难免会受到一些损伤,比如它的封皮和内页可能会被污损和外力伤害。对于那些有完美主义倾向的藏书家来说,他可能会千挑万选找出一本品相很好的书。在书店你可以在好多本里找一本相对完美的书,可是那些网络购买的图书怎么办?某位藏书家提到,他在海外网购图书的时候一般会一种买上三本,这样就算运输过程中外面的两本损坏,中间的那本还是完好的。这是不是有点像“重要的事情说三遍”呢,实际上这可是信息论里的(3, 1)重复码的思想啊!不过,为了对付暴力投递,这种策略还是有一定作用的。尽管挺浪费,但他为了找到完美无损的信息也是拼了。当然,要是那种特别值得一读的经典图书,买上几本也无妨,品相不好的可以平时阅读,品相完美的收藏起来就好了。

书的完美性还体现在是否有错上。一本书一旦印刷出来以后,国内一次印量是3000册(现在也有2000册的),如果其中有一个错误,那么这批书全都有错,而这个错误是无法挽回的。对于电子书的形态来说,挽回错误相对说比较容易,相当于软件找到了一个bug。一旦发现了bug,在下一版里直接更新它就好了。读者可以看到更完美的图书形态,而且可以不断更新。不过对于传统的文学作品,它的错误不是特别碍事,但科技图书的错误非常致命,如果不修订难免对书的质量和声誉造成很大的伤害。当然有人会辩解说电子书没有读书的感觉,这个可能是个人喜好的问题,但实际上电子书面临的最大问题是盗版和版权问题。实体书如果有盗版,印刷工艺可能不能媲美原版,但电子书盗版太容易,和原版是完全一致的(信息的可复制性)。目前看来,没有什么太好的图书防盗版技术,现在的国内的版权意识还不是特别强烈,尤其对于图书而言,觉得知识就是免费拿来分享的,也没有价值。不过,图书的价值和回报很难在一时看出来。未来图书的载体形态会有什么变化,究竟是实体书还是电子书,或者更高级的书,这个还是未知数。

最后我们来吐槽一下Kindle电子书,虽然它提供勘误这个功能,但是由于有些维护人员不得力,往往这个错误会存在很久。相比而言,作者自己维护的电子书就比较容易纠错,因为这是一个声誉的问题。这里不得不提到一套温瑞安的Kindle全集,里面错误还是蛮多的,不过温巨侠比较随性,也许不计较这些错误吧。但是金庸大侠就比较喜欢控制自己作品的文字,不断修改更新。噢,虽然跑题了,但是忍不住还想说一下,有错的书珍藏价值有时候其实更高,而且可以识别珍贵的初版书(first edition),就像霍桑的《红字》初版就把"repudiate"错印为"reduplicate",它只印了2500册而10天就售卖一空。当然,如果有bibliomania(藏书癖)的读者朋友,不妨看看First Editions of American Authors这本书,里面会提到很多有趣的故事。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343

推荐阅读更多精彩内容

  • 欢迎关注我的公众号:读书主义 更多精彩等着你! 这个读书方法,可能会颠覆你对读书以往的认知|开卷 或许读书已经成为...
    米米粒粒阅读 34,515评论 9 209
  • 绚丽八月,终要告别。好习惯越建越多,速读初显效果,一月读完36本,发现原来不是不会发生,而是愿不愿让它发生。...
    糖糖Alice2021阅读 37,221评论 60 269
  • 文/步月 也不知道怎么了,自从那次和阿通的初步接触后,木子就经常在上课的时候跑神,这可不是一个学霸该做的事情。 有...
    步月儿阅读 309评论 0 5
  • 安排和平常不同的特别时光。 1.切断电话2.头脑风暴自己喜欢的活动清单,选出一项。3.每天或者每周,每月一次和自己...
    陌上花开6361988阅读 156评论 0 0
  • 袭人比伶俐做女红不如晴雯,与人讲理吵架不如麝月,模样也是“次一等”,可她却成了宝玉身边最亲近的人,怡红院的首席大丫...
    姑射阅读 452评论 0 3