《在线》是阿里巴巴集团技术委员会主席王坚博士所著,中信出版集团出版的一本讲述王坚自己对于互联网、数据和计算理念的书。
中信出版的书给我的印象是制作精美,价格偏高,内容稍稍拗口,虽然紧随热点但是性价比偏低。但是看完这本书发现,其实人家十分实在啊,整本书的精华都写在封面上了,“互联网是创新平台,数据是自然资源,计算是能源动力”。书的第259页有一张图,很好的阐述了三者结合如何能够产生巨大的效益(见下图),而这张图表达了核心思想:数据是一座金矿;数据这座金矿的产生输出都需要依赖在线,即依托互联网;数据金矿的提炼要靠计算。
通篇阅读下来,觉得这个图也许这样画会更好。
《在线》是一本很擅长打比方的书,在阐述数据比功能更重要的时候,巧妙地说明了数据的价值。第一是和望远镜作比较,表明大量的数据是一个工具,可以看到以前看不到的一些东西,而这些并不是你最初就遇见到可以看到的;第二是和显微镜作比较,表达每一个数据沉淀的动作(如点击)都是微小鲜活的,但是组合起来,意义重大;第三是和雷达作比较,体现大数据能够通过对现有行为的分析去对未来做一个预测,哪怕领先几分钟都是巨大的优势。这些,就是数据的力量,拆散成每一条,是有具体意义的,聚集起来通过对以往规律的总结,能够对你感兴趣的方面进行预测,而在数据分析的过程中,还能够发现意外的收获。在整本书中,王坚在《在线》中做了几个有意思的比方,互联网像火,数据像新大陆,而计算是电,他的类比对于我来说没有那么一目了然,必须要去书里仔细地读一读相关的原因才能够知道为什么这么打比方。
最让人印象深刻的类比还是计算与电了,对于当今大热的云计算,他做出是否属于云计算的判断要求是计算是否在线,计算的使用是否通过互联网来完成。认为计算能力未来应该像电一样,成为一种公共服务,这个方向可以说是技术努力的一个战略性的方向了,视野的确非同一般。
下面说几个感觉欠缺的地方。一是举例的典故不断重复,像电的比方也好、交流电和直流电的故事也好,虽然重复能够加深读者的印象,但是过多的重复感觉书的逻辑没有一步步推进,而是一直在反复地说一件事情。二是体系不明朗,承接不到位,比如说书中为了突出在线的力量,提到了YunOS,据我理解应该是一款阿里正在手机操作系统,虽然对于表达作者的思路还是有辅助作用的,单从书的角度前后链接有些生涩感,感觉没头没尾。三是引用了很多其他人对王坚本人的采访报道,不知道作者是因为自己不好意思那么夸自己还是觉得别人总结的更准确,本来就是应该王坚自己阐述自身的观点、体会,总要切换视角看起来的时候很不酣畅。
最后说说自己的感想吧。
在我的认识里,阿里云主要作为基础层和平台层提供商,提供计算资源和一些组件服务。对于阿里云来说,最引以为豪的应该是其计算能力了,但是这一套产品(现在的名字是Max Compute)对于非结构化、半结构化数据真的能很好的兼容吗?即使单独针对结构化数据,对于数据属性并不是一锤定音的交易数据,能很好的适应吗?在阿里云的官网上已经看到了产品里面云数据库MongoDB版等等其他版本,是不是也意识到了自身存在着局限性呢,Max Compute虽然在某种意义上战胜Hadoop在阿里内部站稳了脚跟,但是其他各有优势的数据库阿里云自身产品能够完全替代吗?而且计算能力真正变为公共服务的话,阿里是不是应该转变为国有呢?虽然王坚在书中表明所有不放在互联网上的云都是耍流氓,但是阿里的合作伙伴的确也在竞争私有云的市场啊。私以为,现阶段要求不要太高,在不在互联网上不能作为是不是云的核心衡量标准。
另外还有一个很重要的问题,数据在线后的确带来了大量的价值,就阿里本身来说,获取的大量用户交易信息就是个金矿。但是这个金矿最大的价值在于大量的交易信息都是可靠的,而这些数据本身就是阿里自身掌控下获取的。也就是说真正在线产生的大量数据中真实的数据才是有意义的,为了保证自身数据的可靠,阿里通过实名认证基本解决了注册用户真实性问题,通过技术手段逐渐破解刷单行为,其他的像商品登记的假冒伪劣信息的处理还刚刚上路。对于阿里来说,去伪存真已经很困难了,浩如烟海的互联网数据,又有几分真呢?希望作者或者作者的同事能够破解相关的难题,以后出一本书叫《去伪》吧。
对数据、云计算有疑问的,大家都可以看看这本书,虽然也许看完之后和我一样,你的疑惑更多了,但是数据和计算一起的确塑造了一个不一样的世界,看一看也是很有意思的。
————————————————————————————————————————
无意间看到知乎上2013年对王坚质疑的声音还是很多的,这两年阿里云起来了,虽然各种批评的声音不断,但是大方向上用户还是很多的,想他本人应该也是松一口气吧。一个意外惊喜是发现这位12年被任命为阿里巴巴集团首席技术官的王坚是心理学博士出身,也是奇人啊。这么一看,这个世界还是很有意思的。