就如读《三体》的时候那个三体游戏模拟的三体世界,那种美是这一整部小说最让我痴迷的地方。昨天听了卓老板聊科技的新推送:《合作与背叛的数学解释》,里面用数学模型模拟生物博弈、囚徒困境的博弈也让我如痴如醉,好像发现了某些事物背后的规律一样欣喜若狂。
壹 生物种群中鹰派与鸽派的平衡
假设在两只鸟盯上同一条虫子的时候:有一种鸟每次遇到这种情况会采取攻击的措施,死战到底,那么这种鸟我们称之为“鹰派”;对应的,另外一类鸟会采取不动武,威吓的措施,威吓成功它独占虫子,威吓失败它就跑掉,这一类比较和平的鸟我们称之为“鸽派”。
当鸽派和鹰派遇到的时候,鸽派直接就逃跑了;两只鸽派遇到一起的时候,互相就耗上了,谁会逃走的百分比大概是50%,剩下的那只鸟虽然赢得了虫子,也耗费了时间精力;两只鹰派遇到一起,不停地攻击对方,直到有一方重伤倒下,争抢就结束。为了做评估,假设获得食物的一方得10分,重伤倒下的-20分,长期对峙耗费的时间代价-3分。所以上面所描述鹰派和鹰派遇到的时候,一方得10分,另一方得-20分,以此类推。
再假设,有一种鸟,全部都属于鹰派的,每一只鹰派的获胜概率是50%的话,那么它们的平均收益是-5分。但是这个时候出现了一只鸽派的变异,鸽派的鸟每次都逃跑,所以每次都是0分,但是并未受伤。不管是什么鸟,每次享受资源的时候并不一定有人和它争抢资源,所以在这种情况下,因为鸽派的得分比全是鹰的个体得分更高,所以鸽派会生存下来并繁殖,数量就会越来越多。
同样,假设这一个种群全部都是鸽派,那么平均分数是(10-6)/2=2分,而出现了一只鹰派的变异的时候,鹰派与鸽派的对峙每次都能获胜,获得10分,于是鹰派会活下来,并迅速扩张。
那么这种扩张会到什么程度呢?当两类鸟的收益得分想平等的时候,所占的比率就是一个稳定的比率。上面的假设计算结果是鹰派占61.54%,鸽派占38.46%。
这就是种群的“存在稳定性”。
当然,放开你的想象,鸽派和鹰派,只是在遇到对峙的时候的一种简单类型想象,也许可能还有鹰派和鸽派的混合,也许还有更多的生存策略,比如山羊派:如果对方不攻击则不攻击,对方攻击则马上采取攻击,狐狸派:首先采取攻击,当对方也开始攻击的时候立刻扭头逃跑……多么有趣的生物博弈理论。
再放开一下你的想象,鹰派和鸽派,可能代表了芸芸众生中的某两种人,在这种资源博弈上,社会上同样会有一定比例的鹰派、鸽派稳定存在。而且,有粗心大意的人,就有小心谨慎的人,有热情似火的人,就有冷漠如冰的人,当然,也有大量的中间派别存在,可能在每次博弈中选择不同的生存策略,但是无论如何,这些策略,都会按照一定的比例稳定存在。
你不觉得用数学模拟自然规律,解释种群问题很迷人吗?
贰 “一报还一报”在囚徒困境中完胜
说完种群,来说个体吧。
什么是囚徒困境?
“囚徒困境”是1950年美国兰德公司提出的博弈论模型。两个共谋犯罪的人被关入监狱,不能互相沟通情况。如果两个人都不揭发对方,则由于证据不确定,每个人都坐牢一年;若一人揭发,而另一人沉默,则揭发者因为立功而立即获释,沉默者因不合作而入狱5年;若互相揭发,则因证据确实,二者都判刑3年。
释放=5分;判刑1年=3分;判刑3年=1分;判刑5年=0分。
囚徒困境就是在信息不对称的前提下,在人与人之间合作或者背叛的选择,导致不同的生存结果。如果两位囚徒选择合作,在共同利益上来说是收益最高的。但是如果考虑进个人利益,两人真的能甘冒被判5年风险信任彼此选择合作吗?
第1阶段
美国密歇根大学政治学家罗伯特·阿克塞尔罗德,做了一个“重复囚徒实验”。他邀请学生和各个领域精英人士设计了14种对策,每种都与其他对策及本身对战200回,然后计算一轮200局平均成绩和所有对战的平均总成绩。
结果出来了,平均分最差的是完全随机对策,也就是无论对方如何选择,每一局都随机选择合作或者背叛,276.3分。所以不考虑对手和环境的博弈实在不是最佳选择。
其中有一种对策非常复杂,用了七十几行C语言代码才完成这个对策。但是如此复杂的对策,得分也非常低。属于瞎琢磨。
得分最高的,是“一报还一报”策略,504.5分。也就是第一局采取合作的策略,此后每一局采取上一局对方的策略作为本局的策略,也就是“人不犯我,我不犯人,人若犯我,我必犯人”。甚至不需要保密,不害怕对方知道自己的策略,甚至希望对方知道。
第2阶段
第1阶段结果公布以后,阿克塞尔罗德广泛征集策略,干掉“一报还一报”。重赏之下必有勇夫,一共提交了62种策略,大战了一万多个回合以后,“一报还一报”依然得分第一。
不过“一报还一报”也有得分低的时候,尤其是面对根本不管对方什么策略,自顾自地全背叛、全随机的策略,“一报还一报”效果很不好。另外,在面对“一报还一报”的变种的时候,会发生回声反应,大战结束于无止尽的互相背叛中,所谓“冤冤相报何时了”。且“一报还两报”的加倍报复,更容易引发连环报复,因此得分也更低。
第3阶段
在这个阶段中,阿克塞尔罗德把这六十多种策略放入自然选择中,让他们随机相遇,每一轮按照得分来安排下一轮参与博弈的个体数量。也就是说,得分越低的,个体越来越少。
才进行几轮后,随机选择的策略就已经消失(没脑子就活不下去)。而最凶残的总是选择背叛的策略,也因为在遭遇高概率背叛的时候比分锐减,也很快消失了,就如那些交际圈中总是背叛别人的人,很快也会遭到排斥。而真正存活下来,占比越来越大的,就是“一报还一报”,及其各类变种,“善良而勇敢”、“善良而精明”、“善良聪明坚定”等策略都获得了同样的成功。
“一报还一报”为何会是最优呢?
从我们所能理解的人际交往去考虑:
①善良:一开始采取合作的姿态,与善良的对策相处得非常好。
②有原则:从不先背叛对方。
③宽容:对于背叛过自己的策略,只要对方选择了合作,立刻原谅对方,采取宽容的合作对策。
④正义:对于背叛者坚决给与惩罚。
⑤适可而止:对于背叛者,只赢了一轮,不占对方便宜。有效止住了双方惨败的连环爆服。
⑥平衡:对与善良的高分者,不会因嫉妒而背叛对方。
⑦光明磊落:并不怕对方知道自己的策略,甚至假如对方知道自己的策略对双方会是更好的结局。
对于这一演化博弈结果,生物学家道金斯(名著《自私基因》的作者)不无感慨地归纳道:即使有自私的基因掌权控制,好人仍能得到好报!
所以,这也解释了在现实社会中,“一报还一报”其实是比较主流的博弈心理和价值观。
今天碰巧简书推送了一篇文章,标题叫《我不恨你,但也不会原谅你》,人终究要学会往前看,但是也没有必要装圣贤,委屈自己去接纳曾经所有的伤害。一定的对抗,有时候是对自己的保护。
DAY 110