01
你一定听说过刺猬和狐狸的故事。
刺猬知道一件大事,狐狸知道许多小事。
知道一件大事的刺猬,拿着锤子看什么都是钉子,以不变应万变。
知道许多件小事的狐狸,不执着于宏大叙事,也不急切于找到根本答案,兵来将挡,水来土掩,走一步看一步,根据反馈决定下一步,以万变应万变。
刺猬偶尔蒙对,但经常铸成大错。
狐狸小错不断,但也不犯大错,从反馈中学习,保持开放,持续进化。
刺猬与狐狸之争似乎就有了定论,狐狸赢了。
面对社会这个动态复杂系统,刺猬宣布自己知道终极答案。
但不要高兴太早。狐狸们从反馈中学习,而反馈里有陷阱。
因为:
- 世界的不确定性;
- 因果链条混杂纠缠;
- 可测量的往往不重要,而重要的往往不可测量;
- 人的偏好并非一成不变的,在莫一时刻并非清晰可辨;
- 并不能从每个人的偏好简单加总出人群整体的偏好;
- 人与人之间始终在斗心眼。
人们往前看的能见度总是有限的,根据反馈做决策并不能保证一直正确。
02
当然,重视反馈没有错,不重视反馈那是自取灭亡。反馈是人们评价决策、校准行为的最重要依据。
教师和学校教育的最大功能,就是为下一代系统性地提供有反馈的学习,使他们步步进阶。不仅下一代,所有人都是有反馈才有学习,反馈的质量决定学习的质量。
从反馈中学习一般有三种方法:
1)从自己的经验中学习
你过去做什么以及怎样做获得成功,将来就会更多地用同样方法做同样的事,反之则减少。从得失中学习是最朴素的学习机制,每个人天生就趋利避害。
博弈论研究也支持这个学习策略,哈佛大学教授诺瓦克(Martin Nowak)经过无数次计算机模拟后得出结论, 所谓“赢继续输就变(Win-Stay-Lose-Shift)”,赢就接着来,输就换个招。 你不用观察对方是什么策略,你只要看自己的得失,赢就继续输就换,简洁到人人无师自通。
2) 从模仿他人中学习
模仿是本能。我小学一年级的时候成绩不好,就模仿班上第一名。她看黑板我看黑板,她写字我写字,她托腮帮子我也托腮帮子,后来我的成绩就变成了第一名,到今天我也不知道模仿她托腮帮子有多少帮助。
别人怎么成功,你就学习他的成功经验,哪怕是想象出来的成功经验,常常有用。
中国经济过去40年的高速增长,本质上也要归功于对其他成功经济体增长模式的模仿。所谓摸着石头过河,自己去摸很重要,但更重要的是有个现成的方向可以让你摸过去。你知道自己要过河最重要。
模仿最有意思的地方是由表及里,从外在成功倒推内在的成功机理,先回溯,再模仿。其实并不存在万能方法判定解剖到了哪一层,就真正管用。
中国近代以来通过模仿追赶西方,从器物层面开始,所谓中体西用,中为体,西为用,那就不用动大手术了,坚船利炮先买后造就行;然后发现这样不行,精英们形成共识得动制度,于是有了辛亥革命武昌城头一声枪响;这就够了吗?有人认为还是不够,国民性才是问题所在,必须触及灵魂最深处,非改造文化不可。到底哪一层管用?就算今天我们回过去看,也难说有结论。
3)使用进化算法模拟学习
物竞天择,适者生存。适应性越高的越能活下来,有越多的后代,扩散开去。至于适应性高的原因是什么,不是很重要。天地不仁,以万物为刍狗,刍狗不必要了解天地的想法,本来就了解不到,了解到了搞不好吓自己一跳。
人之所以是今天这个样子,不是因为哪只黑猩猩做了伟大计划要站起来,而是适应的就活下来开枝散叶,几百万年一代代重复,才变成今天这个样子。倒回去看进程,有无数种其他可能性倒毙在半路。现实的就是合理的,合理的就是现实的。 进化算法就是模拟自然界的套套逻辑(tautology):适者才能生存,而生存下来的就是适者。自然界就在循环论证。
在全社会的层面上,天然采用着进化算法。无数种观念和行为彼此竞争,适应者留下来,传开去。从个人的层面看,进化算法不容易用,因为进化算法走的是盲选路线,而盲选需要从中选择的池子很大,得有大量有差异的观念和行为接受选择。个人没办法精神分裂到那个地步。
当然,个人虽然不能精神分裂,但可以考虑通过货币作中介来模拟分裂。有人把钱投给许多基金经理,定期再评估,超过基准的保留,低于基准的淘汰,就是近似地模拟进化算法。
对进化算法来说,在个人与社会之间的组织层面才是最有趣的。组织总会要求齐一性、科层制和标准化,所以足够多元化和差异性如果要保留下来,必须是有意识为之才做得到。许多公司在内部设计机构的、文化的、激励的区隔,特地打造出体制内孤岛,以防止观念经由传染而趋同,合理性就在于此。
比如说,微信能够崛起,跟团队在广州,而不在总部深圳很有关系。后来腾讯把这套方法总结成赛马机制,事先可能是无心插柳。
03
三种方法都重视反馈,根据反馈调整行为,本质上都属于适应性学习,都很有用,只是别忘了一点:重视反馈要有限度。
狐狸很精明,太精明了也不行,有陷阱等着它。
1)适应性学习的陷阱
适应性学习的共同陷阱,就是它们都是短视的。
无论是机会还是威胁,它们都更重视近在眼前的机会和威胁,而不够重视将来的机会和威胁。
从自已的经验中学习,依靠的是即时得失反馈;通过模仿他人学习,依靠的是观察别人的得失反馈;进而用进化算法,则更是只以即时成败论英雄,连原因都懒得了解。
适应性学习之所以有用,就是因为短视有合理性:你不在每个短期中活下来,就没有长期可言。
但过度偏好即期收获也挖下陷阱,你在每一个短期中都得分,变得越来越适应环境,获得了越来越多的稳定,到最后没有新东西,环境一旦剧变,你拿什么去对付变化?
适应性学习都是从历史记录中学习,而不是从历史的所有可能中学习(counterfactual thinking)。因为它只能学习已经发生的事情,不能学习没有发生,但有可能发生的事情。所以,它注定没有应对剧变的想象力。
2)适应性学习带来的两大陋习
适应性学习带来两大陋习:
- 为了眼前得失牺牲将来,
- 不肯为了全局牺牲局部。
为眼前利益牺牲将来,最典型的是上市公司每一季度都要保持利润增长,结果反而没有长期增长的新引擎,每一步都很满足,最后却落得没有未来。
不肯为全局牺牲局部,最典型的是“在我死后哪管洪水滔天”。
04
所以,光有狐狸是不行的,还得有人做刺猬。
狐狸要想活得日子长久,得搭刺猬的便车。
刺猬有宏大模型、远大眼光、颠覆性理想,时常把我们带到巨坑里去,刺猬太多肯定不行,但没有刺猬的话,狐狸迟早会掉入自己挖的陷阱:到最后大家都是狐狸,极度适应当下的环境,最后变成一群精致的利己主义者,面面相觑没有出路。
重要的是怎么管理刺猬,别让它把我们带到坑里,能做的是试点。
做大事之前先试点,低投入,隔离影响。低投入,所以失败不会有灾难性后果;隔离影响,所以失败的后果不会传染全身。当然,问题没有消失,只是推到了下一个环节:当试点产生经验,需要推广开来时,它会面临着那堵将特区与整体隔开来的高墙,真正的冲突在那里等着它。
想好了怎么管理刺猬,但首先你还得有刺猬。
想想刺猬们真是一种独特的生物:与狐狸这群精致的利已主义者们正好相反,他们着眼长期得失,不惜牺牲短期得失,而且不管是自己还是大家的得失;刺猬中的绝大多数注定会失败得很惨,即使算上极少数获得成功的,作为一个整体,刺猬的平均预期收益是很低的。
套用管理学大师马奇的话说,只有傻到有英雄主义才会做刺猬,他们是适应性过程中出现的bug。
不过,没有他们这些bug出现,就没有社会的生生不息。
乔布斯建议年轻人stay foolish,坚持傻下去,意味深长。
05
两点提示:
如果你是狐狸,请继续你的适应性学习,但不要太过沾沾自喜,尽量对刺猬好一点,同时把他们看紧一点,因为你总有一天要么搭他们的便车,要么被他们带进坑里。刺猬是狐狸的终极救赎,也是终极祸害。
如果你是刺猬,请明了自己大概率会失败,准备好承受后果,如果后果是你自己一个人承担,那就太好了。你是自费为社会做公益,社会将称你为英雄,因为要引诱你走上这条险路,请你把我们带出绝境,去到丰饶之地。
以上资料来源于王烁对于《企业行为理论》(A Behavioral Theory of the Firm)一书的解读。这是本很老的书,至今难说被超越。其作者马奇(James G. March)被称为大师中的大师,就是引领大师的那种人。