概率思维 - 简书

——概率论解决随机问题的本质，就是把局部的随机性转变为整体上的确定性。

比如一座城市，哪些家庭今天会要孩子、婴儿会在哪一刻诞生，这些都是随机的，但是从整体上来看，这座城市的出生率、每年新生儿的数量，却是大致确定的。

或者说抛硬币，每次的结果都是随机的，但是整体来看正反的概率都是1/2。

概率论不是帮你预测下一秒会发生什么，而是为你刻画世界的整体确定性。某一次结果的随机，是低层次的事；而概率论，是高层次的、确定性的认知。

——随机性不等于不确定性

随机性和不确定性最大的差别就在于，这个事件可能出现的结果是否可知。

简单地讲，随机性是这个事件可能出现的结果我都知道，只是不知道下一次会出现哪个结果。

随机播放音乐，虽然不知道接下来会播放哪一首，但歌单里总共10首歌，下一首肯定是这10首里的一首。

而不确定性，是我连可能出现结果的选项都不知道。

比如，我今天出门会发生什么事情，这就是不确定性，而不是随机性。因为可能发生的事太多了，堵车、下雨、碰到熟人、捡到钱……都可能发生，根本没法穷尽所有可能的结果。

而只有知道了全部可能的结果，才能分析它们的概率；不知道可能的结果，就没法深入研究。所以说，概率论面对和处理的是随机性，而不是不确定性。随机事件结果选项可知的特性，是概率论发挥作用的基础。

当然，很多不确定性是可以转变成随机性的。

比如“我今天出门会发生什么事”这个问题，可能的结果没法穷尽，是个不确定性的问题。但如果把问题修改一下，“今天出门遇到的第一个人，是我认识的还是不认识的呢”，就把不确定性的问题变成了随机性的问题，变成了可能遇到认识的人和不认识的人的概率问题了。

尽量把不确定的问题，转变为随机的问题，用概率去研究，就是对付它们的科学方法。

再复杂的概率问题，也都是基于三个计算法则的。哪三个法则呢？
第一个，我称之为“排列组合法则”；
第二个，是“加法法则”；
第三个，是“乘法法则”。

—排列组合法

适用于结果有限，而且每种结果都是等可能性的情况。

—加法法则

如果说排列组合法则是针对单个随机事件的概率计算，加法法则针对的就是多个随机事件。以两个随机事件为例，一个随机事件发生或者另一个随机事件发生的概率，也就是这两个随机事件发生其一的概率，等于两个随机事件各自发生概率的和

不过，加法法则也有个限定条件，就是这两个随机事件不能同时发生，我们也称之为“互斥”。

举个反例。天气预报说，周六下雨的概率是50%，周日下雨的概率是60%，那周末两天有降雨的概率是多少呢？是周六下雨的概率直接加上周日下雨的概率吗？一加结果是110%，超过1了。前面说了，概率一定在0和1之间，不可能大于1，所以这么算肯定不对。到底哪里错了呢？

可能你已经发现了，周六下雨和周日下雨并不互斥，周六下雨了，周日也可以下雨，它们可以同时发生。也就是说，还存在 “周六和周日都下雨”的情况，所以不能直接用加法法则。那怎么办呢？用加法法则得出的结果减去周六周日都下雨的概率就好了。

以两个随机事件为例，加法法则是两个随机事件发生其一的概率，将两个随机事件各自发生的概率相加。

—乘法法则是两个独立事件同时发生的概率，将两个随机事件各自发生的概率相乘就行了。

不过，乘法法则也有个限定条件，得是独立事件。如果是独立事件，彼此互不影响，可以直接使用乘法法则。如果是非独立事件，那就不能直接乘了，而是要对乘法法则做个变形，也就是利用条件概率。

常用的度量概率的方法有三种——定义法、频率法、迭代法。

定义法，是通过自然世界的对称性来定义概率；

频率法，是用随机事件发生的频率来计算概率；

迭代法，是用一种动态发展的、考虑个人差异的角度来度量概率。

当我们用概率解决生活问题的时候，发现还是有些事情解决不了。

首先，有些事是没法试的。

其次，很多事不断发展，它的概率是不断变化的。

而且，很多问题还和个体的差异有关。

类似的问题还有很多。或者是数据量不足，或者是概率本身不断变化，或者是和个体密切相关，这些事情的概率都没有办法通过反复试验、收集数据来预测

所以有了迭代法

迭代法就是说，先利用手头少量的数据做推测，甚至是主观猜测一件事儿的概率，然后再通过收集来的新数据，不断调整对这件事概率的估算。最常用的方法就叫作“贝叶斯”。

整体不需要通过补偿来对局部产生作用，大数定律并不通过补偿来实现。

大数定律不会对已经发生的情况进行补偿，而是利用大量的正常数据，削弱那部分异常数据的影响。正常数据越多，异常数据的影响就越小，直到小到可以忽略不计。

如何保证未来一定有大量的正常数据呢？

均值回归

整体通过均值回归对局部起作用

均值回归的意思是说，如果一个数据和它的正常状态偏差很大，那么它向正常状态回归的概率就会变大。

其实，均值回归更准确的叫法应该是“趋均值回归”，趋向均值的方向回归。所以它产生作用的对象，是那些特殊的、异常的、极端的数据。这些异常的状态是没法长期持续的，所以回归正常值的概率会变大。不过，至于是比正常值稍微高一些，还是稍微低一些，都有可能，完全是随机的。

比如，一个同学正常的数学水平是80分，这次超水平发挥考了100分，下一场考试，他大概率考不到100分，但可能考90分，可能考80分，也可能考70分。这些都比100分正常，都更接近他的真实水平，所以都是均值回归。而不是说上次考100分，这次只能考60分、50分来补偿上次的高分。

总之，大数定律不需要补偿，而是通过均值回归，通过产生大量的正常数据，削弱之前异常数据的影响。

比如我们经常会说一些俗语，运气不好的时候，会说“三十年河东，三十年河西。严格地说，都有一定的道理，但又都不全对。

为什么说有一定的道理呢？因为它们蕴含了朴素的概率思维，知道在大多数情况下，不正常的状态难以持续。正常情况下，谁的运气也不可能一直坏嘛。

为什么说它们不全对呢？因为不管是“三十年河东，三十年河西”，还是“否极泰来”，背后都蕴含着刚才我们说的补偿思维，认为三十年河东后，之后三十年一定河西；

而我们现在知道，大数定律不需要通过补偿来实现。极度的坏运气过后不一定就有好运气，而是通过均值回归，让运气回到不那么坏的正常状态。所以更准确的说法应该是，“否极”后，可能“泰来”，也可能是回到运气不好不坏的状态，都有可能。

本质上，数学期望是对事件长期价值的数字化衡量。

大数定律把局部的随机性变成了整体上的确定性，也就是概率；而数学期望又把概率代表的长期价值变成了一个具体的数字，方便我们比较。

数学期望相同，并不代表两件事的价值就一样。随机结果的波动程度，同样对一件事的价值，对我们的决策影响巨大，在描述和思考一个随机事件的时候，我们还得考虑这种波动性。这就涉及到一个专业概念，叫作“方差”。

方差描述的就是，随机结果围绕数学期望的波动范围。

方差的本质，就是对风险的度量。一个随机事件的方差越大，可能的结果离期望值越远，就说明它的风险越大。

生活里也是这样。虽然日常我们追求稳定，但是如果能在稳定的基础上适当增加一些方差，增加一些波动性，比如偶尔一次旅行、出去吃顿好的、给媳妇买个奢侈品包，都会让生活更加丰富多彩，幸福感更高。

——条件概率

说白了，条件概率就是计算和量化某个条件对随机事件的影响。日常生活中，我们总说“找到关键因素”，其实是在寻找对这件事产生重大影响的条件。是的，我们在计算条件概率。

——贝叶斯推理

根据新信息不断调整对一个随机事件发生概率的判断，这就是贝叶斯推理。

贝叶斯推理的两大优势

第一，起点不重要，迭代很重要。

贝叶斯不是推理一次就完了，它是个反复的过程。每找到一个新信息，就进行一次推理，得到一个新判断。而下一个信息，要么进一步证实我们的判断，要么削弱我们的判断，就要对之前的判断进行调整。这样不断微调、不断微调，慢慢的，结果一定会和真实状况越来越接近。毫不夸张的说，贝叶斯最后一定会无穷逼近于真理。

第二，信息越充分，结果越可靠。

尽可能丰富的信息，是贝叶斯走向准确的最大保障。

拿机器学习来说吧，它的底层理论就是贝叶斯。为什么谷歌训练人工智能识别猫和狗时，要给它看成千上万张照片？为什么特斯拉的自动驾驶汽车要进行各种路测，千方百计收集用户开车的数据？就是因为数据越多，供它调整的机会越多，它的计算结果就会越精确，越逼近真相。

—概率思维的三个原则

原则一：对抗直觉，能算就算。

很多概率相关的事情，不要相信自己的直觉，只要动笔简单算一算，就很容易得出结论。

原则二：寻找条件，增大概率

寻找影响这件事的关键条件。

生活中，几乎所有涉及个体的决策都是如此。想要成功，就要找到对自己成功影响最大的那个条件概率。换句话说，想要成功，就是找到最大化概率的条件。

对于创业来说，成功的平均概率可能只有1%，但如果你拥有关键技术、找到了蓝海、采取了差异化竞争策略，你成功的概率就会大大增加。

原则三：相信系统，长期主义

如果寻找条件概率不足以大幅度提高我们做一件事的成功率，而只是让我们获得一些微弱的优势，比如只让成功率提高到了55%，具体某一次决策时，仍然有一半的可能性会失败，这时候该怎么办呢？

这就要说到概率思维的第三个原则——相信系统，长期主义。

还记得网上那个励志鸡汤吗？1.01的365次方是37.8，而0.99的365次方是0.03，激励我们每天进步一点点。虽然这是一个鸡汤，但不得不说，它是有道理的。

表面上看两个概率相差无几，但只要加入“时间”这一个变量，长期结果就会大不一样——只要有1%的概率优势，长期来看，势必会造成赢者通吃的局面

“训练时，用正确姿势投丢的球比用错误姿势投进的球，更有价值。”其实就是我们说的相信系统，坚持长期主义。用错误的姿势投球，可能某一次能蒙进，但只有用标准的姿势反复练习，把这个姿势固定成肌肉记忆，才能真正提高自己的命中率。

而所谓的科学决策，其实是一个决策系统，只要决策系统有概率优势，我们就要长期坚持，相信系统，而不在乎单次决策的随机结果的好坏。

（如果在某种条件下的条件概率只是大一点，一方面你的优势并不明显，而且不能保证每次都会好一点，有时候人家可能偶尔比你好。毕竟这是随机的，就好比你投篮，用正确的方法投篮比不用正确的方法投篮，在这个条件下，投中的概率比错误的方式好一点，但是这也是随机的，可能某次错误的投球方式比你用正确的方法投的还要准。但是只要我长期用正确的方式这样训练，投中率就会慢慢提高，这就是长期主义，相信系统，不在乎单次随机结果的好坏）

其实我们学习也都是如此。你流的每一滴汗，读的每一本书，都会一点点的改变你的身体，改变你的认知。这些微小的改变，这些微小的概率提升，在时间的作用下都能被无限放大——每天进步一点点，相信时间的力量

站在当下，未来任何事都只是一个概率。所谓坚持，所谓努力，其实就是寻找一个大概率的方向，然后相信系统，相信长期主义。当然，你得坚持活着，等到长期的到来。

参考文献

得到-刘嘉《概率论22讲》