信号与噪声:大数据时代预测的科学与艺术
Nate Silver[美]纳特•西尔弗
读书笔记
预测是什么
预测是本书的中心问题,同时也是信息过载的一个解决方案。预测在生活中必不可少,每次我们选择工作方法,决定是否要投资,都是对未来事情的预测。预测是人们的共同事业,而不仅仅是一些从业者或相关专家的职责。预测永远无法完全准确,因为带有主观色彩,同时预测的目的,是追寻客观存在的真理,所以预测是主观世界与客观世界的连接方式。
大数据时代
1440年,约翰内斯发明印刷机之后,书籍的成本迅速下降,在印刷机发明的一个世纪内,书籍的生产规模呈指数型增长,数量增长了近30倍,人类知识随即进入快速积累期。一切的信息都有了更快的传播渠道,到了现在,出现了大数据这个词(也是在各种论坛讲座上出现频率较高的一个词汇),肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。
当信息增长速度过快,若我们的处理能力不足,带来的问题也比较多。20世纪七八十年代的计算机热非但没能推动经济和科学的发展,反而造成了两个领域生产力水平的短暂下降,经济学家讲这种现象称为“生产力悖论”。保罗.克鲁格曼说,“因为大量的理论堆积如山,验证数据少的可怜。” 人们利用计算机制作粗略的模型,大胆的预测,但在精度和准确度上都差强人意。 另一个方面,人们会按照自己的意思解释一切实务的原因,不论这些事物的真实情况是否如此。所以人们很难从干扰的噪声中分辨出有用的信号,数据展示的都会是我们想要的结果,而且我们也通常会因为这些结果而轻易地皆大欢喜。
贝叶斯定理
本书主要介绍了贝叶斯定理这种预测理论,即"条件概率"(Conditional probability),就是指在事件A发生的情况下,事件B发生的概率,用P(B|A)来表示。
公式为 P(B|A)=P(A∩B)/P(A),P(A∩B)=P(B|A)*P(A)
同理有 P(A∩B)=P(A|B)*P(B)
由上面两式可得 P(B|A)*P(A)=P(A|B)*P(B)
变形: P(A|B)=P(B|A)*P(A)/P(B)
贝叶斯定理与其他统计学推断方法截然不同。它建立在主观判断的基础上,也就是说,你可以不需要客观证据,先估计一个值,然后根据实际结果不断修正。
我们把P(A)称为"先验概率"(Prior probability),即在B事件发生之前,我们对A事件概率的一个判断。P(A|B)称为"后验概率"(Posterior probability),即在B事件发生之后,我们对A事件概率的重新评估。P(B|A)/P(B)称为"可能性函数"(Likelyhood),这是一个调整因子,使得预估概率更接近真实概率。所以,条件概率可以理解成下面的式子:
后验概率 = 先验概率 x 调整因子
这就是贝叶斯定理的含义。我们先预估一个"先验概率",然后加入实验结果,看这个实验到底是增强还是削弱了"先验概率",由此得到更接近事实的"后验概率"。
这一理论表明,我们必须从不同角度去思考我们的想法,以不同的方式检验我们的想法,并且坦然面对各种可能性和不确定性。贝叶斯定理不能接受的是,你假装自己没有任何初始观点和偏见,以正义公平的名义给科学预测带来灾难。
章节安排
第一章至第三章讨论了近期出现的金融危机大背景下的失败的预测,预测中有的很准确,有的则很离谱。第四章至第七章重点讲述动态系统:地球大气层的动态会带来天气的变化,构造板块的运动会引发地震,复杂的人类活动会影响美国经济,还有传染病的传播、扩散。最优秀的科学家正在研究这一系列的因果关系,然而各类动态系统使得预测变得更加困难,这些领域的预测活动总是不尽如人意。第八章至第十章主要探讨解决方案。体育和游戏都遵守规则,这一点是检验预测技巧的实验所必需的。这几章帮助我们更好地理解什么是不可测性和不确定性,让我们深刻理解如何把信息转变为知识。然而,贝叶斯定理也可以被用来解决更多现存的问题。第十一章至第十三章讲到了三 个问题:金融市场泡沫、全球变暖和恐怖主义。这3 个问题对那些预言家和美国社会而言,都很棘手,但如果接受挑战,我们就能使我们的国家、我们的经济和我们的星球更加安全。
不断犯错,不断尝试,这或许是贝叶斯定理应用起来最容易的一个原则了:进行大量的预测,这是唯一能够让自己取得进步的方式。