该书的第二章主要阐述了大数据时代对于数据要接受数据的混杂性而非准确性这一观点。
过去人们收集的数据受自身认识的影响,认为只能处理有限的数据,因此就真的只是停留在处理有限的数据这一阶段。采样的过程中有限的数据决定着数据要尽可能的准确,因为数据的有限意味着错误会很明显,甚至影响到最后分析结果的准确性。然而事实上在全体数据当中,结构化的数据占5%,非结构化的数据则高达95%,如果我们只局限于利用整齐划一的结构化的数据来进行分析的话,势必是管中窥豹舍本逐末的。
首先我们要在思想上接受这个世界上的数据本身就是杂乱无章的,我们只能在小范围内对数据进行分类,排序,让它们看起来像图书馆里的藏书那样整整齐齐。然而世界每时每刻都在发生变化,数据的数量也在不停地呈几何倍数的增长,我们又该如何去整理这些时刻发生着变化的数据呢?
作者在书中举了谷歌的机器翻译与麻省理工的通货紧缩预测软件这两个例子。关于机器翻译,2013年4月我曾经参与过由百度公司牵头,几所高校共同承担的基于云计算的机器翻译的一项国家863项目,所做的工作就是进行语料库的对齐。坦白来说,人工进行对所收集的语料库对齐效率是比较低的,而且数量也是相当有限的。如果仅仅是给予这些有限的英汉互译的语料库来实现机器翻译的话,未免重蹈了60年代美国机器翻译研发人员覆辙;不过既然名称中包含了“基于云计算”这五个字,我想多少还是会有大数据的思想在里面。谷歌的翻译尽管时不时会出现一些能充当段子的笑话,但正是由于它的语料库参考了网络上它能捕捉到的翻译文本,不在乎质量是否良莠不齐,而不是用复杂的算法去匹配有限的语料库,谷歌才能做到目前来说最好也最快的机器翻译。而麻省理工的通货紧缩预测软件的例子则告诉我们,利用不那么精准的大数据分析能够快速地得出结果,判断出事物发展的趋势,这个时效性的价值而花费大量人力物力而得出的精确数据的价值要高的多得多,特别是在预测天灾人祸的出现的时候。
在大数据时代,我们必须要转变我们的思想,单纯为了追求精准而把自己局限在在一个小规模的数据只会让自己“不知庐山真面目,只缘身在此山中。”拥抱错误反而能让我们跳出既定的框架,去快速把握事物的全貌,去判断它的未来发展趋势。这样的思想将会更加高效地指导我们去完成对于精确度要求不那么高的任务。