办理各种事前,有些人会选个黄道吉日,曾经会算算八字,看看自己的凶吉,现在可能流行星座,知道自己什么星座后,利用幸运时间段和幸运物来帮助自己,以此来预测自己将会遇到的情况,自己的未来。
除此之外有没有更高阶的方法?
有,数学家通过建立模型来进行情景预测,以此来判断未来的大概方向。
现在流行大数据,我们生活在大数据时代,通过数据的收集,可以建立数学模型进行判断,在大量的数据下,会给我们展现一个靠谱的未来。
大数据跟我们生活中的联系虽然密切,但是作为普通人的我们,数据收集就已经是个大问题,更加不要说数据收集后的大量运算法则,这些高端的东西我们似乎根本没办法用。
确实,在大数据流行的现在,切换成我们百姓生活中,大数据并不实用,可是,如果我们生活中可不乏一些小数据,我们可以简单的对这些小数据进行处理然后判断。
事实上,我们也一直用着这些方法,凭借自己的直觉,却不知道背后的科学原理,例如我们在等公交车的时候,判断下一班车什么时候回到?是否值得继续等下去。
250多年前的贝叶斯也曾有过这样的疑惑,应该怎么判断未来的趋势?250多年前没有大数据的支持,贝叶斯又是怎么解决的?
贝叶斯的问题是这样的:
如果我们买了十张我们完全不熟悉的彩票,有五张中奖了,我们似乎应该认为中奖概率有50%。但是如果我们只买了一张并且中奖了,我们难道要认为中奖概率为100%,这是不是太乐观了,我们究竟应该买多少,我们才能猜中概率?
如果是100%的概率,那么三张彩票的中奖概率也是100%。但是如果是50%,那么三张彩票的中奖概率就变成1/2×1/2×1/2=1/8。如果中奖概率是1%,那么三张彩票的中奖概率就变成了1/100×1/100×1/100。
贝叶斯认为1/8的概率比100%可能性大,而1/100×1/100×1/100的概率又比1/8可能性大。贝叶斯也以此发表了自己的论文,贝叶斯最重要的贡献在于对直觉进行量化处理,并对过于的假说进行推论。
贝叶斯其实并没有解决这个问题,因为如果问贝叶斯究竟概率是多少?他也不知道,他只是说了那种比那种的可能性更大而已。
几年后,法国数学家拉普拉斯给出了解决方案,答案也相当简洁,任何在n次尝试中有w次中奖的情况,那么未来的情况就是:(w+1)/(n+2)。这就是是著名的拉普拉斯法则。
拉普拉斯也在自己的生活中运用这个法则,例如,未来人们生男孩女孩的概率是多少?通过这个公式我们可以得到一个男女比例将近1:1的结果。
拉普拉斯开启我们小数据应对真实世界的大门。
小数据也有小数据的美,未必完美,却足够完善的改进我们的生活。过了那么多年的发展,在小数据的应用上也可以说有了一定阶段性的成果。
这些小数据的要得以展开,就要有一些先验的数据来支持,不能什么都没有,至少有个猜想,那怕不切实际也好。
这些猜想,这些先前验证过的数据将会决定我们所使用的方法。三招教你简单预测未来,下面就是三种先验数据的表现以及我们预测的方法:
幂次分布中的乘法法则
幂次法则是指事物的发展,规模和次数是成反比的,规模越大,次数越少。例如电影总票房和电影数量的关系,当电影票房少的时候,电影的数量也很少,达到一个点之后,电影的数量看起来没有怎么增加,但是电影票房极剧增加。说明某些电影一部就占了绝大部分,带来了可观的票房。
幂次法则也被称为2/8法则,生活中最重要的部分是由那20%决定的,投资公司的收益也是主要由他们20%的投资决定带来的,电影总票房的数量也主要是由20%的电影所贡献的。
如果我们要预测一部电影可能带来的票房,就符合乘法法则,乘法法则中有一个固定的系数,不同的事情有着不同的系数,假设某部电影的票房系数是1.4,电影已经有600万的票房目前,我们就可以预测这部电影将有840票房。
事物符合幂次分布的时候,乘法法则就显得有效。
正态分布中的平均法则
正态分布中,处于两个极端的人是少数的,绝大部分的人都处于一个区域中,人类的年龄分布就符合正态分布,我们预测年龄的时候就要用到平均法则,我们知道,年纪极小的人和极长寿的人都属于少数,我们大部分人会处于一个区域内。
假设人类的平均年龄是79的话,一个小孩只有7岁,你预测他会活到多少岁?按照平均法则,这个孩子就在正态分布的峰值中,我们会猜测大概78岁,相反,如果一个老人已经90岁了,你又会预测多少岁?同理按照法则,这个老人可能能活到94岁。
一个电影刚上映,你从来没有看过,你猜这部电影需要多久来欣赏?按照正态分布的平均法则,一部电影就在120分钟左右,除出极少数像泰坦尼克号这样的好几个小时的,我们也就可以预算出我们所需要的时间。
厄次分布的恒定法则
恒定法则是不会因为其他影响而产生变化,是一个恒定量。我们最熟悉的莫过于我们在玩游戏或者沉浸在我们喜欢的事物的时候,我们常会说,在给我五分钟我就结束,然而事实就是五分钟之后还有五分钟,似乎就没有停下的趋势。
在赌场中我们也会常遇见这样一种情况,那就是再来一把,我就不玩了,保证离场,结果就是一把又一把。总是把自己说的话忘记,这种法则也被称为遗忘法则。
程咬金三斧定瓦岗,这里三招教你预测未来。总结一下这三大招数:
乘法法则:一个事物持续越久,那将会持续更久。一个国家、一个组织成立了越久,短时间崩塌的肯能性就很小。----(The longer something has gone on,the longer we expect it to continue going on)
平均法则:事物不走极端,而是往平均的趋势靠近。----(The longer we wait, the more we expect them)
恒定法则:事物发生不均匀也不极端,持续保持状态----(Always equally likely to end regardless of how long it's lasted)
如果你在玩老虎机,而老虎机符合幂次分布,你赢了一次,你很有可能一直赢下去,如果你输了,也别指望有赢的机会,你会一直输下去了,这就是乘法法则,不断的放大这种效应。
老虎机符合正态分布的话,不会一直赢,也不会一直输,会处于这个老虎机的均值,赢输的次数趋向与平均值。
老虎机符合厄次分布的话,那跟你玩多少次一定关系都没有,你玩多少次,是输是赢已经注定了。每台老虎机的设置都有差别,因此去了解一台老虎机的属于何种分布就显得尤为重要。
哈佛大学生物教授史蒂夫古尔德发现自己得了癌症后想知道自己活了多久,同样给自己作了预测,医生只是告诉他发现这种癌症后一半的病人都在八个月内死亡。
古尔德认为这只是其中一个数据,他并不知道这种癌症的生存分布。
如果符合正态分布,那么他就大概八个月。如果符合幂次分布,那就完全不一样了,他坚持得越久,他就活得越久。即便是正态分布,古尔德相信他也是属于极端的人,能活得更久,结果是古尔德在癌症发现后又活了二十年。哈佛的教授也用小数据进行判断,大数据并不是不好,只是我们有时候难以获得我们想要的大数据情况下,小数据就能助我们一臂之力。
深入一点,这背后的原理其实都是用数据建模,区别是数据的量。
事物符合某种分布是肯定的情况下,数据再多,我们得到的函数都是固定的,正如上图所示,我们通过少数数据能得出一个函数,也能通过成千上万的点来得到一个函数,但是我们可以用最少的数据得到原本应该的函数。
小数据的优点在于快速做出决策,缺点就是不一定完全的准确,可能会产生大的偏差,大数据的优点在于我们更容易得出一个准确的结果,缺失就是耗费大量的时间去分析数据上。
每个行业的成功人士都具备在短时间做出决策,并且决策的成功率还高,为什么会这样?今年4月份的哈佛商业评论网中对此进行了分析,认为生活中诸多的复杂事物,快速做出判断的方法是制定简单的规则。正如三招教你简单预测未来的方法中,三招是简化的规则,让你对大的方向上判断不会出错。
简单不代表容易,三招简单的预测后面是大量的数据和先人们的努力探究。小数据的思想在大数据的潮流下显得那么另类,却那么耀眼!
参考资料
https://hbr.org/2017/04/creating-simple-rules-for-complex-decisions
https://hbr.org/2017/05/linear-thinking-in-a-nonlinear-worlddy>