说在前面的话
这不是一篇鸡汤,而是一次有趣但极有启发的游戏。
一个明确的事实:
这是一个“好人”挣钱越来越容易的时代。
在社会上打拼,你总会遇到各种不认识的人,但你们起初并不存在信任、友谊等关系。
只要你希望与他们建立长久的、稳定的利益关系,而不是只做一锤子买卖。
但问题是:
“如何正确地做一个好人?”
阅读提示
本文思路来自《合作的进化》(The Evolution of Cooperation)
作者:[美]罗伯特·阿克塞尔罗德(Robert Axelrod)。
正文
这个游戏不像标题那样看起来“无聊”。
有一名“无聊”的博弈论专家“闲着没事干”,某一天,他准备把“囚徒困境”这个模型重复上百万次,想看看有什么有趣的结果。
稳住!别看到“模型”就慌了,实际上很好玩,对自己有点耐心罢!
什么是“囚徒困境”模型?
假设两个犯人作案被抓,分别被安排在两个房间审问(不能联系对方),他们有权利决定自己是否招供,有以下三种情况:
- 两人都招供,证据确凿,每人各判3年;
- 一方招供,另一方不招供,那么招供的一方赎罪立马释放,不招供的那一方判5年;
- 双方都不招供,打死不承认,则证据不足,两人各判1年。
试想一下,假设你是他们其中一个,你选择招还是不招?
为了方便计分,专家把这个模型简化为:
- 如果两人相互背叛(都招供),两人各得1分;
- 如果一方背叛(招供),另一方合作(不招供),那么背叛者得5分,合作者得0分;
- 如果两人相互合作(都不招供),两人各得3分。
这个博弈论专家名叫罗伯特·阿克塞尔罗德,也是《合作的进化》这本书的作者,他是美国科学院院士,擅长运用计算机模型来分析社会科学问题,是这个领域的权威学者。
为了保证这个游戏的高水平,他邀请了包括美国前国务卿基辛格在内的14名精通博弈论的专家,他们的研究领域包括心理学、数学、经济学、政治学、社会学等多个学科,并将他们的博弈策略写成计算机程序放入游戏中。
作者将专家们提交的14种博弈策略与自己提出的随机策略合并起来,共计15种策略,主要分为三大类:
- 好人策略(共计8种),也就是更愿意合作,他们从不首先背叛对方;
- 坏人策略(共计6种),总是琢磨时不时地背叛一次,来捞取更大好处;
- 随机策略(共计1种),每个回合中都随机选择合作还是背叛。
阿克塞尔罗德敲了一下回车键,第一轮游戏开始了:
- 这15个博弈策略在计算机上进行一对一循环赛;
- 整个循环赛重复了5次;
- 总计12万个回合。
你猜最后哪类策略赢了?
结果你可能不敢相信,把作者自己都吓了一跳:
得分排名前八位的清一色都是好人策略,6个坏人策略和1个随机策略排名最后七位。
这个结果看起来可能太励志了。
由于对这个结果有些不放心,作者随后又组织了第二轮比赛:
- 从第一轮循环赛当中吸取教训改良博弈策略;
- 把15个博弈策略扩大到63个;
- 总回合数上升到百万次。
你猜最后结果如何?
和第一轮结果非常相似:
好人策略又一次获得了压倒性优势,得分排名前十五位只有一个坏人策略;得分排名后十五位只有一个好人策略。
阿克塞尔罗德在深入分析比赛数据之后,揭开了“好人得好报”的原因:
- 好人遇到好人,好人策略获胜在于能够抱团取暖,就能够从头到尾始终保持合作,于是都能拿高分;
- 坏人遇到坏人,坏人策略落败在于互相拆台,总是相互背叛,结果双输,于是得分最低;
- 好人遇到坏人,虽然一开始坏人策略占优,但一旦好人策略反应过来,就开始反击,坏人策略就无利可图。
以上三种情况综合起来看,还是好人策略更占优势。
有趣的“一报还一报”策略
但最有意思的是,在两轮比赛中夺冠的是同一个好人策略,叫做:一报还一报。
它的行动原则非常简单:
- 第一步,首先选择合作。绝不首先背叛对方;
- 第二步,重复对手的上一步动作。对手合作,我也合作;对手背叛,我也背叛。
这一策略看上去简单粗暴,没有什么心机可言,其实非常高明:
- 它是善良的。刚开始就选择合作,绝不首先背叛对方;
- 它是不好欺负的。如果对手背叛,它会马上用背叛反击;
- 它是宽容的。如果对手恢复合作,它会既往不咎,也恢复合作;
- 它的行为模式是清晰的。简单明了,别人一看就懂,知道从它身上占不到便宜,只能选择合作。
对比其他几个参赛策略,就能看出以上四大优点的重要性。
比如,“宽容”的重要性。
第一轮比赛中排名第八位的好人策略,叫福利德曼策略,也叫“小心眼的好人策略”。
它第一步同样选择合作,而且不首先背叛。但是,只要对方出现一次背叛,它就永远以背叛来报复,绝不宽容。
这种“小心眼”的反应也导致了它在好人策略中得分最低。
所以,宽容性是非常重要的,一旦出现背叛,只有具备宽容性的策略才能重新建立起合作。
再比如,“不好欺负”的重要性。
有些坏人策略就是欺负这种软骨头的,其中一个很有实力的坏人策略叫“唐宁策略”,它的决策过程非常复杂,目的就是不断试探对方的底线来调整自己的方案:
- 如果发现对方睚眦必报,它就乖乖合作;
- 如果发现对方很好说话,它就试着增加背叛的次数,或者干脆合作与背叛轮流出现。
最终导致的结果是:
遇到唐宁策略时,大多数不具备“不好欺负”属性的好人策略都吃了大亏。
专家们做游戏不是为了好玩
冠军策略“一报还一报”具有以下四个特点:
- 善良;
- 不被欺负;
- 宽容;
- 清晰。
对应到现实中,作者给了我们具体的建议是:
1.不要嫉妒(对应善良)
参加这个游戏要时刻记住,这和下围棋、象棋不同,这不是一次性的博弈。
获胜的关键不是靠打压对方,而是通过创造长期合作来实现共赢。具体在每局中谁得分多一点,谁少一点,其实并不重要,关于这一点,其实之前写的一篇文章《“不在乎输赢”到底是什么意思?》讲得更透彻,公众号内回复“输赢”,即可看到这篇文章。
如果你认真分析“一报还一报”这个好人策略,你就会发现:
- 它没有一个回合比对手多得分;
- 但是十几万或者数百万回合下来,它的累计得分却是最多的。
- 它通过帮助别人得分,让自己得分最高。
2.赏罚分明(对应不被欺负与宽容)
别人合作,就以合作回报;但是别人如果背叛,就要以背叛来反击。
千万不要和稀泥、做滥好人,否则就会被坏人当软柿子捏,吃亏的是自己。
3.不要首先背叛(对应善良与宽容)
在这个游戏当中,是否首先背叛是区分好人策略和坏人策略的风水岭。坏人策略的显著特征就是总是琢磨时不时背叛别人一把。
坏人策略看似能够在某些具体的回合中暂时领先,但最应警惕的是:
坏人策略被报复的次数也是最多的。
“出来混总是要还的”,最后计算总得分,坏人策略是最大输家。
所以,“不要首先背叛”也可以翻译成“不作恶”,谷歌公司还曾经一度将“不作恶”当做自己的座右铭。不过在2015年之后,谷歌将“不作恶”修改成为“做正确的事”,本质还是善良与宽容。
4.不要耍小聪明(对应清晰)
你可能会觉得“一报还一报”策略太简单了,可能被人利用,比如:
- “一报还一报”策略是否显得过于友善?当遇到随机策略时,每次背叛才是最明智的;
- 两个“一报还一报”策略相遇,一次偶然的背叛会让双方进入相互报复的死循环,无法恢复合作。
针对这些弱点,专家们对“一报还一报”策略进行了改良,变为升级版的“一报还一报”策略,再次进行比赛,结果万万没有想到:
仍然是原始版的“一报还一报”策略夺冠,精心设计的升级版都没有达到预期的效果。
原因有两个:
- 你的规则越复杂,出现漏洞的可能性越大;
- 你的规则越复杂,对手越有可能看不懂,从而误以为你是随机策略,进而对你使用背叛,因为上面提到过,应对随机策略最明智的选择就是背叛。
在传统的世界和观念里,世界是零和博弈:
零和博弈中,你将自己的战略意图隐藏得越深,你就更容易获胜。
在现实世界或者和未来发展趋势中,世界是正和博弈:
正和博弈中,你的行为规则越简单约好,别人一看就懂,知道该怎样与你合作,你获胜的概率就越大。
但是有人指出这个游戏的结果过于乐观,与现实情况不符,比如有以下情况:
1.有人说:这个游戏存在“杀不死”假设,现实生活中很多背叛都是一击致命的;
实际上,社会的发展就是给大部分人比以往更多选择的可能性,每个人都有卷土重来的机会,一击致命的可能性在逐渐降低。
2.有人说:现实生活中有很多都是“暗算”,并不是游戏当中的策略一目了然的“明算”。
实际上,整个社会的大数据与区块链技术的发展正在将人们的一切行为数据化、表象化、透明化且去中心化,被多次暗算的可能性也在逐渐减小。
最后
如何正确地做一个“好人”?
遵循“一报还一报”策略
- 我是善良的。刚开始就选择合作,绝不首先背叛对方;
- 我是不好欺负。如果对手背叛,会马上用背叛反击;
- 我是宽容的。如果对手恢复合作,就既往不咎,恢复合作;
- 我的行为模式是清晰的。简单明了,一看就懂,从我身上占不到便宜。
这个游戏给我们的重要启示是:
- 把对方和你的利益拉到一个足够长的未来,尽可能地把合作周期拉长。比如,双方尽可能签订一个长期的合同;
- 增加互动的频率。比如,将验收和付款划分成很多次。
只要未来足够重要,合作就比背叛更划算,合作才能稳定持续。
真正的好人,是明知这个世界的真相之后,却依然选择热爱生活。
祝近安!