5. 小数定律
在数据足够多的情况下,人们可以找到任何自己想要的规律,只要你不在乎这些规律的严格性和自洽性。那么,在数据足够少的情况下又会如何呢?
如果数据足够少,有些“规律”会自己跳出来,你甚至不相信都不行。
如果数据少,随机现象可以看上去“很不随机”,甚至非常整齐,感觉就好像真有规律一样。
问题的关键是随机分布不等于均匀分布。人们往往认为,如果是随机的,那就应该是均匀的,殊不知这一点仅在样本总数非常大的时候才有效。当初iPod最早推出“随机播放”功能的时候,用户发现有些歌曲会被重复播放,他们据此认为播放根本不随机。苹果公司只好放弃真正的随机算法,用乔布斯本人的话说,就是改进以后的算法使播放“更不随机以至于让人感觉更随机”。一旦出现不均匀,人们就会认为其中必有缘故,而事实却是这可能只是偶然事件。
如果统计数字很少,就很容易出现特别不均匀的情况。这个现象被诺贝尔经济学奖得主丹尼尔·卡尼曼戏称为“小数定律”。卡尼曼说如果我们不理解小数定律,我们就不能真正理解大数定律。
大数定律是我们从统计数字中推测真相的理论基础。大数定律说如果统计样本足够大,那么事物出现的频率就无线接近它的理论概率——也就是它的“本性”。所以,如果抽样调查发现一个地区某种疾病的发病率较高,我们就可以大致认为这个地区的这种发病率真的很高。
而小数定律说如果样本不够大,那么它就会表现为各种极端情况,而这些情况可能跟本性一点关系也没有。
哪怕一个硬币再完美,你也可能会连投四次都是正面朝上,这个结果看似有点古怪,但跟连投十次都正面朝上不可同日而语。一个人口很少的小镇发现对某种疾病有较高的发病率,跟一个大城市有同样大小的发病率,不应该引起同样的重视。一个只有二十人的乡村中学某年突然有两个人考上清华大学,跟一个有两千人的中学每年都有两百人考上清华大学,完全没有可比性。
如果你的统计样本不够大,你什么也说明不了。
正因为此,我们才不能只凭自己的经验,哪怕是加上家人和朋友的经验去对事物做出判断。我们的经验非常有限。别看个例,看大规模统计。有的专栏作家听说两三个负面新闻就敢写文章把社会批得一文不值,这样的人非常无知。
所以,理解随机现象最大的一个好处就是你不会再轻易地大惊小怪了。