你有没有想过这样一个问题:在人类最初的社会制度出现之前,人是怎样生活的?在中国古人的想象中,那是一个人人友爱和睦的“大同”社会,类似于陶渊明笔下的世外桃源。当然也有截然相反的想象,比如英国政治哲学家霍布斯就认为,原始的自然状态奉行丛林法则,人与人之间不存在信任和友谊,每个人都自私自利、各自为政、一片混战,是“一切人对一切人的战争”。霍布斯说,在这种情况下,合作不可能在个体之间自发产生,而只能通过一个强有力的政府来建立。真的是这样吗?
为了搞清楚合作究竟是如何产生的,本书作者根据博弈论原理设计了一系列计算机仿真游戏。游戏结果出乎所有人意料:那些更愿意合作、从不首先背叛的“好人策略”全面胜利,而那些总想着时不时背叛一把来捞取好处的“坏人策略”都没好下场。也就是说,坏人最终占不到便宜,只有好人才能够笑到最后。这与我们大多数人的直觉刚好相反。
游戏结果证明了,即使在霍布斯想象的丛林竞争中,也只有合作策略才是最优生存策略,人们仅仅为了个人利益也会自发地展开合作。这就使得合作机制不仅可以在竞争对手之间自发形成,而且能够长期维持,甚至是不断进化。这就是书名《合作的进化》的含义。
本书作者阿克塞尔罗德,是著名的博弈论专家、美国科学院院士。他这本《合作的进化》一出版,就成了研究合作问题的最重要著作。著名进化生物学家、《自私的基因》作者理查德·道金斯甚至认为,对于人类社会的进步来说,《合作的进化》比《圣经》更重要。
好了,介绍完这本书的基本情况,下面,我从三个方面来给你详细介绍,阿克塞尔罗德设计的这个博弈游戏的来龙去脉:第一,这个游戏到底是怎么玩儿的;第二,这个游戏给了我们什么重要启示;第三,这个游戏在多大程度上反映了真实世界?
第一部分
下面我们就先来说第一点,这个博弈游戏到底是怎么玩儿的?
一说到博弈论,我们立马就会想到经典的“囚徒困境”模型。囚徒困境是这样的:两个犯人被抓,如果双方都招供,证据确凿,则两人各判3年;如果一方招供一方不招,那么招供的一方将功赎罪立马释放,不招的一方判5年;如果双方都打死不招,则证据不足,各判1年。
为了方便计算,游戏中把这个模型简化为:如果两个人相互合作,各得3分;如果两个人相互背叛,各得1分;如果一方合作一方背叛,那么合作者得0分,背叛者得5分。可以看出,暗算别人的好处最大,但是如果两个人都要暗算对方,那么双方都无利可图。游戏中,每个人都根据自己的利益计算来选择是合作还是背叛。
阿克塞尔罗德设计的游戏,就是用计算机模拟囚徒困境,而且是多次重复博弈。为了保证游戏的高水平,他精心挑选了14个精通博弈论的专家,邀请他们将自己的博弈策略编写成计算机程序提交。这些专家都非等闲之辈,他们来自于数学、心理学、经济学、政治学、社会学等多个学科领域,据说其中还包括美国前国务卿基辛格。
专家们提交的博弈策略五花八门,但总的来说可以分为两类:一类是好人策略,它们更愿意合作,从不首先背叛对方;另一类是坏人策略,它们总是琢磨着时不时地背叛一把,来捞取更大好处。除此之外,阿克塞尔罗德还加入了一个随机策略,它在每个回合中都随机选择是合作还是背叛。
这15个策略在计算机上进行一对一的循环赛,整个循环赛重复了5次,一共是12万个回合,猜猜看,在12万个回合的大混战之后,哪类策略最终胜出了?结果连阿克塞尔罗德自己都不敢相信:得分排名前8位的是清一色的好人策略,而6个坏人策略和1个随机策略排在最后7位。也就是说,好人大获全胜,坏人全线溃败,这简直就是童话一般的美好结局。
也许是对这个结果不太放心,阿克塞尔罗德随后又组织了第二轮比赛。这次的参赛人数扩大到了62人,每个参赛者都知道第一轮比赛的结果,可以从中吸取经验教训,并且改进这些策略。加上随机策略,这一次有63个策略参赛,进行了上百万个回合的混战,结果怎样呢?和第一轮的情况非常相似,好人策略又一次获得了压倒性优势:得分排名前15位中只有一个坏人策略,排在第8;而得分排名最后15位中只有一个好人策略。
现在的问题是:“好人得好报”的结果究竟是怎么来的?在深入分析比赛数据后,阿克塞尔罗德揭开了其中的缘由:好人策略之所以表现突出,不是因为它们在面对坏人策略时特别能打,而是因为它们能够抱团取暖,如果好人策略遇到好人策略,就能从头到尾始终保持合作,于是都能拿高分。相反,如果坏人策略遇到坏人策略,就总是相互背叛,结果双输。要是好人策略遇到坏人策略呢?虽然一开始坏人策略占优,但一旦好人策略反应过来开始反击,坏人策略也就无利可图。这些情况综合起来,还是好人策略更占优势。
除此之外,还有一点更令人惊讶,在这两轮比赛中夺冠的,是同一个好人策略,叫做“一报还一报”。它的行动原则非常简单,也就是:第一步选择合作,从第二步开始,重复对手上一步的动作,对手合作,我也合作;对手背叛,我也背叛。这一策略看上去简单粗暴,没有什么心机可言,其实非常高明。
首先,它是善良的,它一开始就选择合作,而且绝不会先背叛对方。其次,它是不好欺负的,如果对手背叛,它会马上用背叛来反击,这就让对手不敢轻举妄动。第三,它是宽容的,如果对手恢复合作,那么它也恢复合作,既往不咎。第四,它的行为模式是清晰的,简单明了,别人一看就懂,知道从它身上占不到便宜,只能选择合作。阿克塞尔罗德认为,这四大优点,也就是善良、不被欺负、宽容和清晰,正是“一报还一报”策略能够连续夺冠的根本原因。
我们通过对比其他几个参赛策略,就能看出这四大优点的重要性。比如,在第一轮中得分最低的好人策略,也就是排名第8位的弗里德曼策略。同样是第一步选择合作,而且不首先背叛,但是,只要对方出现一次背叛,它就永远以背叛来报复,绝不宽容,这种过于小心眼的反应导致了它在好人策略中得分最低。从这可以看出,宽容性是非常重要的,因为一旦出现背叛,只有具备宽容性的策略才能重新建立起合作。
但是反过来说,过于宽容、太好说话的策略也有问题,因为有些坏人策略就是专门欺负这种软骨头的。比如有个很有实力的坏人策略叫做“唐宁策略”,它的决策规则非常复杂,通过不断试探对方的底线来调整自己的方案。如果发现对方睚眦必报,它就乖乖合作;而如果发现对方很好说话,它就试着增加背叛的次数,或者干脆合作与背叛轮流出现。于是,很多好人策略在与唐宁策略相遇时都吃了大亏。从这儿可以看出,“一报还一报”策略的有仇必报特性相当重要,不给坏人可乘之机。
以上就是为你讲述的第一个重点,这个博弈游戏到底是怎么玩儿的。其实就是在计算机上模拟囚徒困境,而且是多次重复博弈。在两轮比赛中好人策略都大获全胜,而冠军是一个非常简单的“一报还一报”策略,它拥有四大优点,也就是善良、不被欺负、宽容和清晰。
第二部分
显然,专家们做游戏并不是为了好玩儿,而是用这个游戏来模拟现实世界中人们的真实博弈。人人都渴望在现实世界中成为赢家,那要如何才能赢呢?这个游戏给我们带来了一些重要启示。这就是接下来要讲的第二个重点。
前面说了,冠军策略“一报还一报”拥有善良、不被欺负、宽容和清晰这四大优点。我们想在现实博弈中获胜,肯定要向冠军策略学习。对此,阿克塞尔罗德给了我们四点具体建议:第一,不要嫉妒;第二,不要首先背叛;第三,赏罚分明;第四,不要耍小聪明。下面我们就一条一条来看。
首先是不要嫉妒。参加这个游戏最重要的一点,就是要时刻记住,这和下围棋、象棋不一样,它不是一个零和博弈,也不是一次性博弈。获胜的关键不是靠打压对方,而是要通过创造长期合作来实现共赢。具体在每局中谁拿多一点、谁拿少一点,其实并不重要,没必要斤斤计较。
一个有力的证据就是,冠军策略“一报还一报”在比赛中,没有一个回合是比对手多得分的。它的策略决定了它只能和对手拿一样多,或者比对手少。但是十几万个回合下来,它的累计得分却是最多的。这很好地说明了,自己想要成功,就要首先帮助别人成功。
第二条建议是不要首先背叛。在游戏中,从不首先背叛的是好人策略,总琢磨着时不时背叛一把的是坏人策略。坏人策略看似机关算尽,在某些具体回合中也能暂时占优,但同时,坏人策略被报复的次数也最多。出来混总是要还的,最后一算总账,坏人策略是最大输家。所以这条建议也可以简称为“不作恶”。
第三条建议是赏罚分明。也就是说,别人合作就要以合作来回报,别人背叛就要以背叛来反击,千万不可以和稀泥、做滥好人,否则就会被坏人当软柿子捏,吃亏的是自己。
第四条建议是不要耍小聪明。游戏中有一个现象很有意思:第一轮比赛结束之后,大家发现“一报还一报”虽然夺冠,但它并不是完美无缺的,实际上还有改进的空间,比如说,它对于随机策略过于友善。随机策略的每次选择都是随机的,与对手的行为无关,所以面对随机策略时,当然是每次都背叛才是最明智的。有时候,“一报还一报”又显得过于严厉,比如当两个“一报还一报”策略相遇时,一次偶然的背叛会让双方陷入相互报复的循环,进入锁死状态,无法恢复合作。
针对“一报还一报”的这些弱点,第二轮的参赛选手对它做了不少改进,很多参赛策略其实是原始“一报还一报”策略更加复杂的升级版,但万万没想到的是,在第二轮比赛中,仍然是原始版“一报还一报”策略夺冠,那些精心设计的升级版统统没有达到预期的效果。这是为什么呢?
阿克塞尔罗德认为,这一方面是因为,你的规则越复杂,就意味着你出现漏洞的可能性越大;另一方面,过于复杂的决策规则可能让对手看不懂,而误以为你是随机策略。前面说了,大家面对随机策略时,最明智的选择就是永远背叛,这显然是你最不愿意出现的情况。
这里也可以看出,零和博弈游戏与阿克塞尔罗德游戏有一个非常重要的区别。零和博弈的意思是,如果你有利益,别人就一定有损失,双方不可能合作。玩零和博弈时,你将自己的战略意图隐藏得越深,就容易获胜。而玩阿克塞尔罗德游戏则相反,你的行为规则越简单越好,别人一看就懂,知道该怎样与你合作,你的赢面才越大。现实世界中的博弈并不是零和博弈,而是更接近于阿克塞尔罗德游戏,所以像郭靖、阿甘、许三多这样的人,始终用最简单的策略来处世,反而能成为最大赢家。
这就是阿克塞尔罗德给我们的建议:不要嫉妒、不要作恶、赏罚分明、不耍小聪明。除此之外,还必须注意一点,阿克塞尔罗德游戏有一个前提条件,就是博弈的回合数要足够多,未来的利益要足够重要。这一点特别关键,它是包括“一报还一报”在内的好人策略能够胜出的必要条件。也就是说,合作的基础并不是我们通常认为的信任、友谊或者利他主义等等,而是长久的利益关系。如果只是一锤子买卖,完全不用考虑未来,或者未来利益相对于眼前利益不那么重要,那么就不可能建立起稳定的合作模式。
从这里我们也可以得到一条重要启示:如果想要促成合作,我们就要想方设法增加未来的影响力,让未来的合作利益尽可能地重要。具体办法是,一方面要把合作周期拉长,与对方建立起长久的利益关系,另一方面要增加互动的频率,大家抬头不见低头见,就更容易建立起合作。比如在商务合作时,双方可以签订一个尽可能长期的大合同,但是验收和付款要划分成很多次。总之,只要未来足够重要,合作就比背叛更划算,合作才能稳定持续。
好了,以上就是为你讲述的第二个重点,这个游戏给了我们哪些重要启示。我们想要在现实博弈中获胜,就要向冠军策略“一报还一报”学习,记住四条重要建议:不要嫉妒、不要作恶、赏罚分明、不耍小聪明。同时,要增加未来的影响力,确保未来的利益足够重要,合作才能稳定持续。
第三部分
那么,是不是掌握了这几条建议,我们就可以在现实博弈中所向披靡、成为人生赢家了呢?肯定没这么简单。阿克塞尔罗德游戏的结果非常正能量,好人总是可以笑到最后。问题是,现实真的这么乐观?这个游戏到底在多大程度上反映了真实的世界?这就是接下来我们要讲的第三个重点。
先来说说这个游戏模拟真实世界比较成功的地方。首先,它假设每个参与者都是自私的,无论是合作还是背叛都是利益权衡的结果,不需要预设道德前提,也不需要信任关系。其次,不需要一个中央权威来干预决策,所有选择都是个人的自主决定。第三,参与博弈的策略五花八门,有的理性有的疯狂,有的投机有的保守,有的善良有的阴险,有的强硬有的软弱,总之你能想得到的所有策略都可以拿来参赛。第四,博弈的回合数足够多,也就意味着未来足够重要。
可以说,这几点都很好地模拟了现实世界的情况,是游戏比较成功的地方。那么,这个游戏有没有与现实不太符合的地方呢?我们有个最直观的感受,就是游戏的结果似乎过于美好了,让人有点儿不敢相信。
事实上,阿克塞尔罗德还推演出了一个更乐观、更加不可思议的结论。他认为,随着时间的推移,好人会越来越多,合作越来越牢固,而坏人会被自然淘汰,基本灭绝。这就是他所说的“合作的进化”,他是用生物演化的方式来模拟“合作的进化”过程:假设在第一轮比赛中,A 策略的得分是 B 策略的两倍,这意味着 A 策略的生存优势是 B 策略的两倍。根据适者生存、优胜劣汰的道理,在第二轮比赛中,就要有更多的 A 策略参赛,它的数量是 B 策略的两倍。那么,这样进行1000轮比赛,也就是进化1000代,会发生什么呢?
计算机结果显示,1000代之后,所有的坏人策略都灭绝了,存活下来的全部是好人策略,而且仍然是“一报还一报”占绝对优势。阿克塞尔罗德从中得到的启示是:合作的进化是不可逆转的。也就是说,合作一旦建立,优胜劣汰的机制也开始发挥作用。人们发现好人策略可以在竞争中占优,那么,大家为了自身利益着想,都会争当好人。久而久之,社会上的好人就越来越多,坏人自取灭亡,最终灭绝,而且整个过程一旦启动就不会被逆转。
很显然,这个过于乐观的结论是与现实情况不相符合的。人类社会演化至今,早就不止1000代了,不但坏人没有灭绝,而且很难说到底是好人占优还是坏人占优。那么,问题到底出在哪里?是阿克塞尔罗德的推演出现了漏洞吗?是的。这个漏洞很隐蔽,一般人发现不了,但逃不过高手的眼睛,比如著名哲学家赵汀阳。
赵汀阳指出,阿克塞尔罗德游戏的一个最大漏洞,是它的“杀不死”假定。就是说,游戏中没有人能够消灭对方、让对方完全出局,每个人永远有卷土重来的机会。这等于是严格限制了坏人作恶的破坏力,让好人自带主角光环,无论怎样都不会挂掉。这显然与现实不符,现实中的背叛往往是一击致命的,失败者永远没有机会翻盘。
鉴于这种情况,可以稍微调整一下游戏规则:一旦某个策略累计被单方背叛N 次,也就是得了 N 次零分,那么这个策略就出局了,彻底退出比赛。这样一来,游戏结果就会有很大的不同。不太可能出现朝好人一边倒的情况,而更可能是好人策略和坏人策略各有胜负。
除此之外还有一些问题。比如,游戏中每个人的所作所为一目了然,一旦背叛就可能遭到报复,而现实中很多时候是“暗算”,并不是每次背叛都能被发现;再比如,每个参赛者采用什么策略,是程序一开始就设定好的,在整个比赛中不能更改,好人即使吃亏也只能硬扛着,而实际情况是,一旦有好人遭到背叛而挂掉,或者坏人做坏事却没被发现,就可能导致很多好人“弃明投暗”,转向坏人策略,这样坏人就会越来越多,和阿克塞尔罗德的结论刚好相反。
当然还可能出现好人和坏人的实力不均等,导致好人实际上无法做到“一报还一报”等情况。这些事实综合起来,使得社会的真实演化过程,并不是像阿克塞尔罗德所说的那样,朝着合作的单方向进化,而是一个波动循环。如果回到霍布斯想象的自然状态,假设一开始人人都是坏人,作恶就占不了什么便宜,因为相互背叛的结果是每个人收益都很低。这时候如果出现一些好人,哪怕数量相当少,但他们彼此合作能获得稳定的收益,这比坏人更有优势。以阿克塞尔罗德的话来说,就是好人小集体能够“侵入”坏人集团。
如果到这里为止,社会的确是朝着合作的方向进化的,但是之后会发生什么呢?当好人越来越多、坏人相对减少,这意味着,坏人之间彼此碰面、相互伤害的几率就变小了,而坏人遇到好人的几率变得更高,坏人通过单方背叛来捞一把的成功率就大大提升。大家看见当坏人有利可图,就纷纷抛弃好人策略转而当坏人,于是合作的进化就开始逆转,合作越来越少,背叛越来越多,又回到霍布斯所说的自然状态。
所以说,社会的真实演化进程并不是单向的,而是在这两种情况之间来回波动。合作与背叛的选择,是个动态博弈的过程,无论是好人策略还是坏人策略都不可能获得一劳永逸的胜利,这是我们应该要看到的。
好了,以上就是为你讲述的第三个重点。这个游戏模拟现实世界比较成功的地方在于,它不需要预设道德前提,不要中央权威的干预,参与的策略多种多样,博弈的回合数足够多等等。但是它也存在一些漏洞,比如“杀不死”假设,以及认为合作是单向演化的。