01 做一个多模型思考者
要想成为一个有智慧的人,你必须拥有多个模型。而且,你必须将你的经验,无论是间接的,还是直接的,都放到构成这些模型的网格上。
查理·芒格(Charlie Munger)
多模型思维具有十分重要的实用价值。运用这种思维方式,你就能更好地理解复杂现象,就能更好地推理。你将会在职业生涯、社区活动和个人生活中表现出更小的差距,做出更加合理的决策。是的,你甚至还可能会变得更有智慧。
如今,用模型组织和解释数据的能力,已经成了商业策略家、城市规划师、经济学家、医疗专家、工程师、精算师和环境科学家等专业人士的“核心竞争力”。任何人,只要想分析数据、制订业务发展策略、分配资源、设计产品、起草协议就必须应用模型,哪怕是做出一个简单招聘决策,也要运用模型思维。因此,掌握本书的内容,特别是那些涉及创新、预测、数据处理、学习和市场准入时间选择的模型,对许多人都有非常重要的实际价值。
使用模型来思考能够带给你的,远远不仅仅是工作绩效的提高。它还会使你成为一个更优秀的人,让你拥有更强的思考能力。你将更擅长评估层出不穷的经济事件和政治事件,更能识别出自己和他人推理中的逻辑错误。有了这种思维方式,你将懂得辨识什么时候意识形态取代了理性思考,并对各种各样的政策建议有更丰富、更有层次的洞见,无论是扩建城市绿地的建议,还是强制药物检测的规定。
所有这些好处都来自与多种多样模型的“亲密接触”。你用不着一下子掌握千百种模型,而只需先掌握几十种就足够了。
尽管单个模型本身可能就已经相当强大了,但是一组模型可以实现更多的功能。在拥有多个模型的情况下,我们能够避免每个模型本身所固有的局限性。多模型方法能够消除每个单个模型的盲点。基于单一模型的政治选择可能忽略了世界的一些重要特征,如收入差距、身份多样性以及与其他系统的相互依赖关系。 有了多个模型,我们可以达成对多个流程的逻辑推理,可以观察不同因果过程是如何重叠和相互作用的,也拥有了理解经济、政治和社会世界复杂性的可能。而且,我们在这样做的时候并不需要放弃严谨性,因为模型思维能够确保逻辑的一致性。由此,推理将建立在扎实的证据基础之上,因为模型需要用数据检验、改进和精炼。总而言之,当我们的思维得以在多个逻辑上一致、处在通过了经验验证的框架中时,我们更有可能做出明智的选择。
对于使用模型的人来说,模型思维的兴起还有一个更简单的解释:模型能够让我们变得更聪明。如果没有模型,人们就会受到各种认知偏差的影响:我们会对近期发生的事件赋予过高的权重、会根据“合理程度”分配概率、会忽略各种基本比率。如果没有模型,我们处理数据的能力就会受到极大的限制。有了模型,我们就能澄清相关假设且更有逻辑地进行思考,还可以利用大数据来拟合、校准、检验因果关系与相关性。总之,有了模型,我们的思考会更有效。有证明表明,如果让模型与人面对面直接“竞争”,模型将会胜出。
尽管多模型方法看上去似乎很平常,但请注意,它其实是与我们讲授模型和构建模型的传统方法相悖的。传统的方法,那些在高中时老师教授的方法,依赖一对一的逻辑,也就是说一个问题需要一个模型。比如,老师会告诉我们,在这种情况下,我们应该运用牛顿第一定律;在那种情况下,我们应该运用牛顿第二定律;在第三种情况下,则应该运用牛顿第三定律。又或者,在这里,我们应该使用复制因子方程(replicator equation)来说明下一期兔子种群的大小。在这种传统的方法中,目标是确定一个适当的模型并正确应用这个模型。而多模型思维所要挑战的,恰恰正是这种传统方法。多模型方法主张尝试多个模型。如果你在九年级时就使用过多模型思维,你可能会被阻止,但是现在使用多模型思维,你将会取得很大进步。
模型的假设和结构各不相同。有些模型描述了少量理性的、自私的行为主体之间的互动,有些模型则描述了大量的遵循规则的利他主义者的行为。一些模型描述了均衡过程,还有一些模型讨论路径依赖性和复杂性。这些模型的用途也各不相同。一些模型是用来帮助预测和解释的,一些模型是用来指导行动、推动设计或促进沟通的,还有一些模型则创造了有待我们去探索的虚拟世界。
所有模型都有三个共同特征:
第一,它们都要简化,剥离不必要的细节,抽象掉若干现实世界中的因素,或者需要从头重新创造。
第二,它们都是形式化的,要给出精确的定义。模型通常要使用数学公式,而不是文字。模型可以将信念表示为世界状态的概率分布,可以将偏好表示为各备选项之间的排序。通过简化和精确化,模型可以创造易于处理的空间,我们可以在这些空间上进行逻辑推理、提出假说、设计解决方案和拟合数据。模型创建了我们能够以符合逻辑的方式进行思考的结构。
第三,所有模型都是错误的,因为它们都是简化的,它们省略掉了细节。通过同时考虑多个模型,我们可以实现多个可能情况的交叉,从而克服单个模型因严格而导致的狭隘性。
只依靠单个模型其实是过于狂妄自大的表现,这种做法会导致灾难性的后果。相信只凭一个方程,就可以解释或预测复杂的现实世界现象,会使真理成为那种很有“魅力”的简洁的数学公式的牺牲品。
事实上,我们永远不应指望任何一个模型能够准确预测1万年后的海平面将上升多少,甚至也不应该指望任何一个模型能够准确预测10个月后的失业率。我们需要同时利用多个模型才能理解复杂系统。政治、经济、国际关系或者大脑等复杂系统永远都在变化,时刻都会涌现出介于有序和随机之间的结构和模式。当然,根据定义,复杂现象肯定是很难解释或预测的。
因此在这里,我们面临着一个严重的脱节。一方面,我们需要模型来连贯地思考。另一方面,任何只具有少数几个活动部件的单个模型都无法解释高维度的复杂现象。即便是牛顿,也无法写出一个能够解释就业水平、选举结果或犯罪率下降趋势的三变量方程。如果我们希望了解传染病的传播机制、教育成效的变化、动植物种类的多样性、人工智能对就业市场的冲击、人类活动对地球气候的影响,或者社会动乱的可能性,就必须通过多个模型去了解它们:机器学习模型、系统动力学模型、博弈论模型和基于主体的模型等。
智慧层次结构
我们迷失于知识中的智慧到哪里去了?我们迷失于信息中的知识到哪里去了?我们迷失于数据中的信息到哪里去了?
把这个疑问形式化为一个智慧层次结构(wisdom hierarchy)。
最底部是数据,也就是原始的、未编码的事件、经历和现象。出生、死亡、市场交易、投票、音乐下载、降水、足球比赛,以及各种各样的(物种)发生事件等。数据既可以是一长串的0和1,也可以是时间戳,或是页面之间的链接等。数据是缺乏意义、组织或结构的。
信息用来给数据命名并将数据归入相应的类别。为了说明数据与信息之间的区别,看看这几个例子:落在你头上的雨是数据,佛蒙特州伯灵顿市和安大略湖的7月份总降水量则是信息;威斯康星州麦迪逊市国会大厦旁边周六市场上的鲜红辣椒和金黄玉米是数据,而农民的总销售额则是信息。
柏拉图将知识定义为合理的真实信念。更现代的定义则认为知识就是对相关关系、因果关系和逻辑关系的理解。知识组织了信息,呈现为模型的形式。市场竞争的经济学模型、网络的社会学模型、地震的地质学模型、生态位形成的生态学模型以及学习的心理学模型都体现了知识。这些模型能够解释和预测。
层次结构的基础就是智慧。智慧就是指识别和应用相关知识的能力。智慧需要多模型思维。有时,智慧体现在懂得如何选出最优模型,智慧可以通过求出各种模型的平均结果来实现,这是在进行预测时的一种常见做法。采取行动时,有智慧的人都会应用多个模型,就像医生会让病人做好几种检查来帮助诊断一样。他们使用模型来排除某些行为、选择某些行为。有智慧的个人和团队会有意让模型之间相互“对话”,探索不同模型之间的重叠和差异。
智慧包括选择正确的知识或模型。考虑一下这个物理问题:一个小小的毛绒玩具猎豹从一架飞在6千米高的飞机上掉下来,当它着地时会造成多大的伤害?学生可能已经掌握了引力模型和自由降落速度模型。这两个模型会给出不同的答案。引力模型的预测是,这个玩具猎豹会撕裂汽车的顶棚。自由降落速度模型的预测则是这个玩具猎豹的最高速度可以达到每小时16千米。
在这个毛绒玩具的问题上,要想得到正确的答案需要信息(这个玩具的重量)、知识(自由降落速度模型)和智慧(选择正确的模型)。
做一个多模型思考者
我们生活在一个充斥着信息和数据的时代。同时,这些数据得以产生的技术条件还极大地缩短了时间和空间上的距离。它们让经济、政治和社会行动者变得更加敏捷,能够在一瞬间就对经济和政治事件做出反应。它们还增加了连通性,因而也增加了复杂性。考虑到这种复杂性,任何单个模型都更有可能遭到失败。当然,我们不应该抛弃模型,恰恰相反,我们应该将逻辑一致性置于比直觉更优先的位置;我们不能满足于双重模型、三重模型甚至四重模型,我们要成为多模型思考者。
要成为一个多模型思考者,必须学习掌握多种模型,我们可以从中获得实用的知识,需要理解对模型的形式化描述,并知道如何应用它们。当然,我们也不一定非要成为专家不可。构建模型是一门艺术,只能通过不断实践才能熟练掌握,这不是一项以观赏为目的的活动,需要刻意地练习。在建模中,数学和逻辑扮演着专家教练的角色,它们会纠正我们的缺漏。
02 模型的7大用途
在学校里,我们应用模型来解释数据。在现实世界中,我们应用模型来预测、设计和采取行动,也可以使用模型来探索新思想和新的可能性,还可以利用模型来交流思想、增进理解。
模型的价值还体现在,它们能够把特定结果所需要的条件清晰地揭示出来。我们所知道的大多数结论都只是在某些情况下成立。
构建模型的3种方法
1 具身法(embodiment approach)。用这种方法构建的模型包括重要部分,同时对于不必要的维度和属性,要么剥离,要么将它们整合在一起考虑。
2 类比法(analogy approach),可以对现实进行类比与抽象。
相比而言,具身法更强调现实主义,而类比法则致力于刻画过程、系统或现象的本质。当一位物理学家假设不存在摩擦,同时又以其他方式做出符合现实的假设时,他所采用的就是具身法。当一位经济学家将相互竞争的公司视为不同的物种并在此基础上定义产品利基时,就是在做类比,用一个模型来表示不同的系统。但是,在具身法与类比法之间并没有一条明确的界限。
3 另类现实法(alternative reality approach),也就是有意不去表征、不去刻画现实。这类模型可以作为分析和计算的“演练场”,我们可以利用这类模型探索各种各样的可能性。这种方法使我们能够发现适用于物理世界和社会世界之外的一般结论。这类模型有助于我们更好地理解现实世界中各种约束条件的含义,比如如果能够通过空气安全有效地传输能量,那么将会怎样?这类模型还允许我们进行现实世界中不可能的(思想)实验:如果我们能够加快大脑的进化,那么将会怎样?
无论是表征更复杂的现实世界、创造一个类比,还是建立一个用来探索思想的虚拟世界,任何一个模型都必须是易于处理且便于交流的。我们能够用形式化的语言对模型编码,比如数学符号或计算机代码。在描述模型时,我们不能在不给出正式描述的情况下直接抛出诸如信念或偏好之类的东西。信念通常可以表示为一系列事件或先验的概率分布。而偏好则可以用多种方式来表示,比如用对一组备选项的排序或者一个数学函数来表示。
模型的7大用途
模型有几十种用途,不过在这里,我们只专注讨论其中的7种用途:推理、解释、设计、沟通、行动、预测和探索。
模型的7大用途(REDCAPE)
推理: 识别条件并推断逻辑含义。
解释: 为经验现象提供(可检验的)解释。
设计: 选择制度、政策和规则的特征。
沟通: 将知识与理解联系起来。
行动: 指导政策选择和战略行动。
预测: 对未来和未知现象进行数值和分类预测。
探索: 分析探索可能性和假说。
R EDCAPE:推理
在构建模型时,我们要先确定最重要的行为人(行动者)、实体以及相关特征。然后,描述这些组成部分如何互动和聚合,我们能够推导出一些东西,并说明原因何在。这样一来,也就提高了我们的推理能力。逻辑还可以揭示不可能性和可能性。利用模型进行推理,我们可以得到精确的,甚至是令人出乎意料的关系。我们可以发现自身直觉的制约性。
逻辑也可以揭示数学关系。
当我们将模型中推导出来的主张与叙述性主张进行比较时,这种“条件性”的威力将会变得更加明显,即便后者有经验证据支持时也是如此。我们先来考虑一下这个管理名言:重要的事情先做(first thing first)。它说的是,在面对多项任务时,你应该首先完成最重要的那项任务。这个原则有时也被称为“大石头优先”原则,意思是当你要将一些大小不一的石头装入一只桶中时,你应该先装入大石头,如果你先放入小石头,那么大石头就放不下了。
“大石头优先”原则,是专家从观察中总结出来的,在许多时候确实不失为一个很不错的原则,但是它也不是无条件的。基于模型的方法将会先对任务提出具体的假设,然后推导出最优规则。
但是,假设我们要考虑一个更加复杂的任务:在国际空间站上,为若干研究项目分配空间。每个项目都对有效载荷重量、空间大小和动力有一定要求,对宇航员的时间和认知能力也有自己的要求。而且,每个项目都有做出科学贡献的潜在能力。在这个问题中,即便我们想出了一个衡量这种“大石头”(重要性)的方法,对上面这些属性求加权平均值的权重,但在给定的相互依赖性的维度下,“大石头优先”原则也已经被证明是一个相当糟糕的原则。更复杂的算法以及可能的市场机制则会更好地发挥作用。因此,在某些条件下,“大石头优先”原则可能是一个很好的原则。但是,在另外一些条件下,“大石头优先”原则就不行了。通过利用模型,我们可以划出一条界线:什么时候应该采用、什么时候不能采用。
RE DCAPE:解释
模型为经验现象提供了清晰的逻辑解释。经济学模型解释的是价格变动和市场份额等现象;物理学模型可以解释坠落物体的轨迹和轨迹形状的变化;生物学模型可以解释物种的分布;流行病学模型解释了传染病传播的速度和模式;地球物理学模型能够解释地震的大小和分布。
模型可以解释点值(point values)和点值的变化。例如,某个模型可以解释五花肉期货的当前价格以及过去6个月来价格上涨的原因。
最有效的模型既能解释简单的现象,也能解决令人费解的问题。教科书中关于市场的经典模型能够解释为什么对于像鞋子或薯片这样正常商品需求的意外增加,会在短期内提高它们的价格,这是一个非常直观的结果。这些模型还可以解释,为什么从长期来看,需求增加对价格的影响会小于生产商品的边际成本的影响。需求的增加甚至有可能会导致价格下降,这种现象在规模收益增加的情况下确实会出现。这无疑是一个更令人惊讶的结果。
有人说,模型可以解释任何东西。这种说法没有错,模型确实可以。然而,基于模型的解释必须包括正式的假设和明确的因果链条,而且这些假设和因果链条都要面对数据。例如,有个模型说,用低被捕概率可以解释犯罪率的居高不下,这样的模型就是可检验的。
RED CAPE:设计
模型还可以通过提供框架来帮助设计,因为只有在适当的框架内我们才可以考虑不同选择的含义。工程师使用模型设计供应链;计算机科学家使用模型设计Web协议;社会科学家使用模型设计制度。
REDC APE:交流
由于创造了一种共同的表示方法,模型能够有效地改进交流。模型要求对相关特征及其关系给出正式的定义,这使我们能够精确地进行交流。
很多人都低估了交流对人类社会进步的影响。一个无法交流的思想,就像一棵淹没在森林中的树,没有人会注意到它。
REDCA PE:行动
弗朗西斯·培根曾经这样写道:“人生的伟大目标,不在于知,而在于行。”良好的行动需要良好的模型。政府、企业和非营利组织都要使用模型来指导行动。无论是提高价格(降低价格)、开设新的分支机构、兼并其他公司、提供全民医疗保健,还是资助某个课外计划,决策者都要依赖模型。在最重要的行动中,决策者要使用多个复杂的模型,模型与数据紧密相关。
个人当然也可以这么做。在日常生活中,当我们准备采取某个重要行动时,也应该使用模型。例如,在决定购买房屋、更换工作、回到大学攻读更高的学位,或者在决定是购买还是租赁汽车时,都可以使用模型来指导决策。用到的模型可能只是一些定性的模型而不一定有相应的数据支持,但是多模型思维会“迫使”我们向自己提出一些重要的问题。
REDCAP E:预测
模型长期以来被用来预测。天气预报员、专家、顾问和许多国家中央银行行长,都在使用模型进行预测。警察机构和情报部门也使用模型预测犯罪行为,流行病学家则使用模型预测下个季节哪种流感病毒将最为流行。现在,随着数据可得性的提高和精细度的改进,利用模型进行预测的做法变得更加常见了。例如,Twitter上的跟帖和谷歌上的搜索关键词,都已经被用于预测消费趋势和潜在的社会活动了。
模型既可以用来预测特定的个别事件,也可以用来预测一般趋势。
过去,解释和预测往往是齐头并进的。解释电压模式的电气工程模型也可以预测电压大小,解释政客过去投票行为的空间模型也可以预测他们在未来的投票。
但预测毕竟是与解释不同的。有的模型可以用来预测,但是却不一定能解释什么。深度学习算法可以预测产品的销售情况、明天的天气变化、价格演变趋势和身体健康状况,但是它们几乎没有提供什么解释。这些模型类似于“嗅弹犬”。尽管这些狗可以利用它们灵敏的嗅觉系统确定一个包裹是不是包含着爆炸物,但是我们确实不应该要求它们解释为什么知道那里有炸弹,也不能去问它们工作原理是什么、怎样才能拆除炸弹。
此外,有些模型有很强的解释力,但是在预测上却没有什么价值。板块构造论模型虽然可以解释地震是怎样发生的,但是却不能预测地震何时发生;动力系统模型虽然可以解释飓风是怎样形成的,但是却无法准确预测飓风什么时候袭来,也不能准确预测飓风的移动路径;生态模型虽然可以解释物种的形成的模式,但是却无法预测出现的新物种类型到底是什么。
REDCAPE :探索
最后,我们还会用模型来探索直觉。这种探索可能与政策相关:如果让所有城市公交车都免费,会怎么样?如果让学生自主选择作业来证实他们的课程成绩,会怎么样?如果在草坪上标出能量消耗数量,又会怎么样?我们可以提出很多假说,而且所有这些假说都可以用模型进行探索。我们还可以利用模型来探索某些在现实世界中不会出现的情况。如果法国生物学家拉马克(Lamarck)的观点是正确的、如果后天获得的性状真的可以遗传给我们的后代,那么那些把牙齿矫正好了的父母的孩子就再也不需要牙套了吗?在这样的世界还会发生什么?提出这样的问题并探索它们的含义可以帮助我们揭示进化过程的局限性。暂且将现实世界的约束丢到一边,可以极大地激发我们的创造力。
探索有时还涉及对共同假设进行跨领域比较。例如,为了理解网络效应,建模者可能会从一系列程式化的网络结构入手,然后追问网络结构是不是会影响以及如何影响合作、传染病传播或社会动乱。又或者,建模者可能会将一系列学习模型应用于决策、双人博弈和多人博弈;但是他们这样做的目的不是为了解释、预测、行动或设计,而只是为了探索和学习。
当我们在实践中应用一个模型时,也能以多种方式使用它。同一个模型既可以用来解释、预测,也可以用来指导行动。
多模型思维
分类模型
最早的分类模型可以追溯到古希腊时代。在《范畴篇》(The Categories )一书中,亚里士多德描述了对世界进行分类的10个范畴,包括了实体(substance)、数量(quantity)、地点(location)和状态(positioning)等,每个范畴都会创建不同的类别。
当我们使用一个普通名词时,“裤子”是一个类别,“狗”、“勺子”、“壁炉”和“暑假”也是如此。我们就是在使用类别去指导行动。我们按种族,比如意大利人、法国人、土耳其人或韩国人,来对餐馆进行分类,以便决定在哪里吃午餐;按照市盈率对股票进行分类,并根据市盈率高低买卖股票。当人们声称亚利桑那州的人口之所以增长是因为该州气候宜人时是在用分类方法进行解释。我们还使用类别进行预测,例如预计身为退伍军人的候选人在选举中会有更大的获胜机会。
我们还可以在智慧层次结构中解释分类模型的作用。对象构成了数据,将对象分为不同类别就能创造出信息,而将估值分配给各个类别则需要知识。为了评价孔多塞陪审团定理,我们依赖一个二元分类模型,它将对象或状态分为两个类别,一类标记为“有罪”,另一类标记为“无罪”。关键的思想是,相关属性的数量限制了不同类别的数量,因此也就限制了有用模型的数量。
如果能构建出多个多样性的、准确的模型,我们就可以做出准确的预测和估值,并选择正确的行动。加入1个模型后可以改进8%,加入3个模型后改进幅度可以达到15%。请不要忘记,第二个和第三个模型不一定比第一个模型更好,它们也许会更糟。但是,即使它们的准确性稍差,但只要分类(字面意义)有所不同,就应该把它们加入进来。
创造过多的类别会导致对数据的过度拟合,而过度拟合会破坏对未来事件的预测。当然,没有任何一种分类方法是完美的。在每个类别中,家庭的均值可能会略有不同,我们称这种情况称为分类误差(categorization error)。
构建的类别越大,分类误差就越大,因为类别越大,我们就越可能将具有不同均值的家庭集中到同一个类别中。但是,更大的类别依赖更多的数据,又可以使我们对每个类别均值的估计更加准确。因估计均值错误而出现的误差称为估值误差(valuation error)。估值误差随类别数量的增加而减少。如果不同家庭的月支出不同,那么包含一个家庭的类别(甚至包含10个家庭的类别也一样)将无法准确估计均值,但包含1 000个家庭的类别则能够准确地估计均值。
对人类行为者建模
怎样对人进行建模?在接下来将要给出的众多模型中,人都将成为分析的基本单元。我们将构建关于人们投票、合作、参与时尚活动、投资退休账户,以及毒品上瘾的模型。在每一个模型中,我们都必须对“人”做出假设:他们的目标是什么?他们是只关心自己的利己主义者还是利他主义者?他们可能采取的行动是什么?他们如何选择自己要采取的行动?或者说他们是否拥有选择权?
我们可以为每个模型构建任意的特殊假设,但这种做法会引起混乱并错过真正的机会。如果这样做,最终将只剩下一组特殊的构造,而且每一次要构建新模型时,都需要对人们的行为方式进行新的思考。由此产生的异质性会限制我们思考和组合模型的能力,我们将不可能成为有效率的多模型思考者。
我们遵循的方法强调一致性和多样性。或者将人建模为基于规则的行为者(rule-based actor),或者将人建模为理性行为者(rational actor)。在基于规则的行为者集合中,我们考虑那些基于简单固定规则行事的人以及基于适应性规则行事的人。基于适应性规则行事的人能够根据信息、过去的成功或者通过观察他人的行为而改变自己的行为。
我们怎样对人建模,归根到底取决于问题的背景和想要实现的目标。我们是在预测还是在解释?是在评估政策行动吗?是在尝试设计一种制度吗?或者,是在探索?在低风险的环境中,例如要构建一个预测人们会购买什么颜色的外套或者他们会不会在看完演出后起立鼓掌的模型时,我们通常会假设人们采用固定规则。而在构建关于人们决定是不是要合作创业或信任他人的模型时,我们假设人们会学习和适应。而在高风险的环境中,我们将假设知晓相关信息的、经验丰富的人会做出最佳选择。
基于这种经验,许多人推断,构建正式的模型需要一种狭隘的、不切实际的“人性观”,也就是说,必须假设所有人都是自私的,而且从来不会犯错。但事实并非如此。事实上,即便是经济学家也不会这样认为。在经济学的前沿领域,早就出现了包含不完全信息和异质性行为主体的模型。在这些模型中,行为者会根据他们所了解到的东西做出调整,他们有时(尽管不总是)会关心他人的收益。当然,人们会在何种程度上表现出涉他偏好(other-regarding preferences)则取决于具体情况。例如,当向慈善机构捐款或从事志愿工作时,一个人可能会显得比在购房时更加关心他人。
对人建模的挑战
对人建模是一个很大的挑战,虽然模型要求低维表征,但人却是天生无法简单地加以表征的。人是多样性的、易受社会影响的、容易出错的、有目的的、有适应能力且拥有自己主体性的,也就是说,我们有行动的能力。
相比之下,诸如碳原子和台球之类的物理对象是没有上述这6个属性的。碳原子不具备多样性,尽管它们可以在化合物中占据不同的位置,例如在丙烷中。碳原子从不违反物理定律,也不会主导有目的的生命。它们不会根据过去的经验改变自己的行为,没有主体性,也不会发起行动或转行。因此,社会科学家会时不时地讽刺:如果电子可以思考,那么物理学就会面临非常大的困难。如果电子也拥有构建模型的能力,那么物理学无疑会变得更加困难。
我们可以从多样性所带来的问题开始讨论。人们的偏好、行动能力不同,形成的社交网络、利他主义倾向以及分配给不同行动的认知资源(注意力)也有所不同。如果每个人都一样,那么建模工作就会轻松得多。有时我们会根据统计原理假设行为的多样性可以相互抵消。例如,我们可以构建一个模型,预测慈善捐赠额是收入水平的函数。对于给定的收入水平和税率,有些人可能比我们所假设的(偏好)更利他,而另一些人则可能比假设的更利己。如果偏离模型的偏差达到平均值(在第5章中,我们将给出一些能够解释为什么会是这样的分布模型),那么这个模型的预测就可能是准确的。当然,除非不同人的行动是相互独立的,否则不会出现多样性可以抵消掉的结果。在行为受到社会影响的时候,极端行为会产生溢出效应(spillovers)。当政治活动家鼓动选民时,就会发生这种情况。在下文中模拟社会骚乱时,我们会讨论多样性的这种影响。
人们所犯的错误是否能够相互抵消,取决于具体情境。认知依恋(cognitive attachment)缺失导致的误差就可能是随机且独立的,认知偏差导致的误差可能是系统性的、相关的。人们对最近发生的事件往往更加重视,并且更容易回忆起故事性的情节而不是统计数字。这类共同偏差不会被消除。
还有一个挑战与人们所渴望得到的东西有关。构建与人相关的模型时,一个主要的挑战是如何准确评估他们的目标和目的。有些人渴望财富和名声,有些人则希望为自己所在的社区乃至全世界变得更好做出贡献。在理性行为者模型中,我们直接以函数的形式表示一个人的收益。在基于规则的模型中,目的可能更加隐而不露。这是一种行为规则,人们愿意生活在一个“融合”的社区中,但如果与自己同一种族的人在社区中的比例低于10%,人们就选择离开。这样的规则显然包括人们对自己渴望得到的东西的信念。
对人建模的最后一个挑战来自人的主体性:我们有采取行动的能力,改变行为的能力以及学习的能力。也就是说,在某些情况下,人类可能是一种“习惯生物”:行动可能会超出我们的控制范围。也很少有人会主动选择沉迷于阿片类药物或贫穷。但是,归根到底是人们采取的行动产生了这些结果。
通常,当人们采取的行动产生了不好的结果时,他们会修正自己的行为。我们可以通过在模型中加入学习来捕捉这一点。人们采取的学习方式因环境而异。为了搞清楚自己需要学习多少个小时才能在考试中取得好成绩,或者自己需要每个星期锻炼多少次才能保持好身材时,人们可以根据个人经历或通过内省来学习。而在了解要到哪家杂货店购买食品,或者要不要为某个慈善项目捐款时,人们可以通过观察他人来学习。
人的这6个特征的每一个都是潜在的模型特征。如果建模时决定只包含一个特征,那么我们还必须决定在多大程度上来体现它。例如,我们要如何使演员变得多样性?需要包括多少社会影响力?人们会向他人学习吗?要如何定义目标?能拥有多大的主体性?我们所拥有的主体性(或活力)可能比自己所认为的要少。
理性行为者模型
理性行为者模型假设人们在给定收益或效用函数的情况下做出最优选择。这里所说的行为既可以是决策,其收益只取决于行为者个人的行为;也可以发生在博弈中,其收益取决于其他人的行为。在同时进行选择或信息不完全的博弈中,理性行为者模型还需要设定关于其他人将会做什么的信念。
理性行为者模型
行为者个体的偏好由在一组可能的行为上定义的数学形式的效用函数或收益函数(payoff function)来表示。行为个体选择函数值最大化的行动。在博弈中,这种选择可能需要相信其他博弈参与者的行为。
我们可以用数据估计函数,可以推导出最优行为,还可以通过更改参数值来提出各种各样“如果……将会怎样”的问题。
除了人们进行优化这一可疑主张外,人们违背独立性和传递性的假设导致许多人质疑理性行为者模型的广泛使用,特别是经济学家。但是,作为建模者,我们有充分的理由采用理性行为者模型。
第一,人们往往会表现得“似乎”在最优化。他们可能会应用产生近似最优行为的规则。
第二,即便人们确实会犯错,但在重复的情况下,人们的学习能力也会推动人们接近最优行为。
第三,在“赌注”(利害关系)很大的情况下,人们更应该投入足够的时间和精力来做出接近最优的选择。
第四,理性行为者模型简化了分析。大多数效用函数都只有一个唯一的最优行为。一个人可以有上千种次优行为,说人们没有实现最优,就打开了一个拥有巨大可能性的盒子。
第五,理性行为者假设保证了内部一致性。如果模型假设了次优行为且模型在公共域中,它就可以用来学习。人们可以改变自己的行为,可能不会最优化,但除了最优之外的任何假设都会受到批评,也就是不一致。
第六,有人认为这是最重要的一个原因,也就是理性可以作为基准。 在设计政策、做出预测或选择行动时,我们应该考虑如果人有理性偏好并且进行最优化时会发生什么。这种做法可能帮助我们找出思维中存在的缺陷。还应该接受这样一种可能性,也就是这种做法会使我们得出这样的结论:理性行为者模型不适用,我们应该选择其他模型。有鉴于此,我们可能会再增加第七个原因:多模型思维。如果人们应用多模型方法,犯错的可能性就会大大减少。
选择理性行为者模型的理由
“似乎”: 基于智能规则做出的行为可能与最优或近似最优行为无法区分。
学习: 在重复的情况下,人们应该能够接近最优行为。
大的“赌注”: 在重大决策中,人们会收集信息并认真思考。
唯一性: 最优行为通常是唯一的,从而使模型成为可检验的。
一致性: 最优行为创建一致的模型。如果人们学会了利用这样的模型,就不会改变自己的行为。
基准: 最优行为提供了一个基准,作为人们认知能力的上限。
损失厌恶和双曲贴现
理性行为者模型受到心理学家、经济学家和神经科学家的挑战。他们指出,这种模型与人类的行为方式不符。来自实验室和自然实验的经验证据表明,人在决策时会受到各种各样的偏差(包括现状偏差)的影响。我们在进行概率计算时会忽略基本比率,对确定的事情赋予的权重过高,也会表现出损失厌恶。
我们已经掌握了大量支持区分两种思维方式的证据:快速、直观的基于规则的思考(快思考)和深思熟虑(慢思考)。快思考更容易受到上述各种偏差的影响。 从长远来看,我们可以从大脑的结构中推断出一些行为模型,但是一定要记住,大脑具有巨大的可塑性。能够通过慢思考来克服各种偏差。
在尝试构建更符合现实的模型时,我们必须牢记易处理性这个原则。更符合现实的模型可能需要更复杂的数学。这些困难或担忧当然并不意味着我们必须放弃那些心理现实行为模型,但它们确实意味着我们应该谨慎行事,并将更多的注意力放到那些已经得到很好证明的行为规律上。
下面就来讨论两种已经多次复制成功的偏差:损失厌恶和双曲贴现(hyperbolic discounting)。损失厌恶是指面对收益时,人们表现为风险厌恶,面对损失时,人们却表现为风险偏好。
例如,人们更偏好肯定能赢得400美元,而不怎么喜欢有机会赢得1 000美元的彩票。然而,他们却更愿意选择有可能损失1 000美元的彩票,而不愿意选择肯定会损失600美元。同样的不一致性也延伸到非货币领域。医生在收益情境时的选择是风险厌恶的,而当备选方案以损失的形式呈现给他们时,他们则愿意冒更大的风险。
前景理论:示例
收益框架: 有两个备选方案。
备选方案A:肯定可以赢得400美元。
备选方案B:如果硬币正面朝上,可以赢得1 000美元;如果背面朝上,什么也得不到。
损失框架: 先给你1 000美元,然后给你两个备选方案。
备选方案:肯定会损失600美元。
备选方案 :如果硬币正面朝上,不会损失什么;如果背面朝上,你将损失1 000美元。
在这里,A和是等价的,B和 也是等价的。根据前景理论,会有更多的人选择A和 。
总之,根据对模型用途的设想,我们可以选择假设损失厌恶和双曲贴现,只要这些假设似乎更能匹配大多数人的行为。但我们也可以不这样做,主要原因是,它们可能使模型更加复杂,而不能改变我们所发现的东西的性质;或者,如果假设双曲贴现,模型可能产生不符合实际的行为。
基于规则的模型
现在讨论基于规则的模型。基于最优化的模型假设人们最大化的效用函数或收益函数,而基于规则的模型则假设特定的行为。基于规则的模型可能会假设,在拍卖中,一个人的出价总是比拍卖物品的真实价值低10%;或者,如果一个人的朋友一直可以获得更高回报的话,那么这个人会“复制”这位朋友的行为。
许多人将基于最优化的模型等同于数学(模型),而将基于规则的模型等同于计算(模型)。但是基于最优化的模型和基于规则的模型之间的区别并不像人们想象的那样清晰。这两种方法的关键区别在于它们的基本假设。在基于最优化的模型中,对偏好或收益的假设是最基本的;而在基于规则的模型中,对行为的假设才是最基本的。
行为规则既可以是固定的,也可以是适应性的。固定规则意味着始终适用相同的算法。正如理性选择模型可以作为人类认知能力的上限,固定规则模型则可以作为人类认知能力的下限。
而适应性规则可以在一系列行为之间切换,演变出新的行为或者复制其他行为。之所以要采取这些行动,是为了提高收益。因此,与固定规则不同,适应性规则需要效用函数或收益函数。这种方法的支持者认为,在任何情况下,只要人们倾向于采取简单而有效的规则,就应该采用基于适应性规则的模型,也就是说,既然人们以这种方式行事,那么就得按这种方式来建模。
毫无疑问,人类行为发生在零智能与完全理性这两种极端情况之间,因此构建行为个体利用适应性规则的模型是有意义的。这些规则应该考虑到人们在同一个领域内的认知依恋和认知能力各不相同这一事实。因此,我们应该期待行为多样性会涌现出来,也可以期待群体内部的某种一致性。这些也都可以包含在模型当中。
总而言之,考虑到对人建模所涉及的复杂性,我们有充分的理由去利用多种不同的模型。我们可能无法准确地预测人们会做什么,但是也许能够确定一系列可能性。如果可以的话,就应该多构建一些模型,我们已经从构建模型中获益,因为我们知道会发生什么。
最后,我们呼吁大家保持谦卑和同理心。在构建关于人的模型时,建模者必须非常谦卑。由于面临着多样性、社会的影响、认知错误、目的性和适应性等多种挑战,我们的模型不可避免地会出现这样那样的问题,这也正是需要采用多模型方法的原因。严谨的行为模型能够很好地拟合某些情况,并使我们能够专注于环境的其他方面。当我们拥有更多更好的数据时,更丰富的行为模型将会更合适。我们必须保持适度的期望。人是多样性的、易受社会影响的、容易出错的、有目的的、有适应能力且拥有主体性的。怎么能认为单一的人类行为模型不会出错呢?一定会。我们的目标是构建许多模型,作为一个整体,它们将是有用的。
05 正态分布
我不敢说自己比其他65个人都更聪明——但是我当然要比那65个人的平均水平更高。
理查德·费曼(Richard Feynman)
分布构成任何建模者核心知识库的一部分。从本章开始,我们将利用各种分布来构建和分析路径依赖、随机游走、马尔可夫模型,以及各种搜索模型和学习模型。如果想要度量权力、收入和财富的不平等,并进行统计检验,也需要关于分布的知识。在本书中,我们花了篇幅不大的两章专门讨论分布。本章先讨论正态分布(normal distribution),下一章讨论幂律分布(长尾分布)。我们都是从建模者而不是从统计学家的角度来讨论的。作为建模者,我们对两个主要问题感兴趣:为什么要这样看待分布?为什么分布很重要?
要解决第一个问题,就需要重新认识分布。分布以数学的方式刻画变量的变差(在某个类型内部的差异)和多样性(不同类型之间的差异),将变量表示为在数值上或类别上定义的概率分布。正态分布的形状是我们熟悉的钟形曲线形状。大多数物种的高度和重量都满足正态分布,它们围绕着均值对称分布,而且不会包含特别大或特别小的事件,例如,我们从来没有遇到过1米长的蚂蚁,也没有看到过1千克重的麋鹿。我们可以通过中心极限定理(Central Limit Theorem)来解释正态分布的普遍性。中心极限定理告诉我们,只要把随机变量加总或求其平均值,就可以期望获得正态分布。许多经验现象,特别是像销售数据或投票总数这样的总量数据,都可以写成随机事件总和的形式。
当然,并不是所有事件的规模(大小)都是正态分布的。地震、战争死亡人数和图书销量都呈长尾分布,这种分布主要由很小的事件组成,也包括极少数非常巨大的大型事件。加利福尼亚州每年都发生超过10 000次地震,但是除非你一直盯着茉莉花的花瓣看它们是否在颤动,否则你不会注意到这些地震。然而,偶然也会出现大的地震:地面裂开、高速公路塌陷,整个城市都在颤抖。
了解系统是否由于多种原因产生正态分布或长尾分布是非常重要的。例如,我们可能想了解电网是否会受到大规模停电的冲击,或者市场体系是否会产生少数亿万富翁和数十亿穷人。有了相关的分布知识,就可以预测洪水超过堤坝的可能性、达美航空238航班准时抵达盐湖城机场的可能性,以及交通枢纽成本超过预算金额两倍的可能性。分布知识对设计也很重要。正态分布意味着不会有太大的偏差,因此飞机设计师不需要为身高5米的人预留腿部空间。对分布的理解也有利于指导行动。正如我们在下文中将会了解的那样,防止骚乱在更大程度上取决于能不能在极端情况下安抚人群,而不在于平时能不能减少不满情绪的平均水平。
结构:正态分布
分布为事件或价值分配概率。每日降雨量、考试分数或身高的分布为每一个可能的结果值分配一个概率。各种统计量将分布中包含的信息压缩为单个数值,例如均值,分布的平均值。德国黑森林中树木的平均高度可能达到24米,开胸手术后的住院时间平均为5天。社会科学家经常通过均值来比较各个国家的经济和社会条件。2017年,美国的人均国内生产总值为57 000美元,远超法国的42 000美元,但是法国人的平均预期寿命则比美国人高出3年。
均值之外的第二个重要统计量是方差,可以衡量一个分布的离散程度,也就是数据与均值之间距离的平方的平均值。 1 如果分布中的每个点具有相同的值,那么方差等于零。如果一半数据的值为4,一半的值为10,那么平均来说,每个点与均值的距离为3、方差等于9。分布的标准差是另一个常用的统计量,等于方差的平方根。
可能的分布集合是无限的。我们可以在纸上任意画出一条线并将它解释为概率分布。幸运的是,我们经常遇到的分布一般都属于有限的几种类型。最常见的分布就是正态分布,也就是钟形曲线,如图5-1所示。
图5-1 正态分布及其标准差
正态分布的均值是对称的。如果一个正态分布的均值等于零,那么抽取到大于3的概率等于抽取到小于-3的概率。正态分布的特征在于其均值和标准差(或者等价地,其方差)。也就是说,所有正态分布的图形看上去都是相似的,大约68%的结果在均值的一个标准差内,大约95%的结果在两个标准差内,并且超过99%的结果在三个标准差内。正态分布允许任何大小的结果或事件,不过“大”事件是非常罕见的,与均值距离超过五个标准差的事件发生的概率为200万分之一。
我们可以利用正态分布的规律给各种范围的结果分配概率。如果位于美国威斯康星州密尔沃基市房子的平均面积是2 000平方英尺(1平方英尺≈0.09平方米)、标准差为500平方英尺,那么那里68%的房子面积介于1 500平方英尺到2 500平方英尺之间,95%的房子面积介于1 000平方英尺到3 000平方英尺之间。如果2019年的福特福克斯汽车平均每加仑(1加仑≈3.79升)汽油可以行驶40英里(1英里≈1.6千米),且标准差为每加仑1英里,那么超过99%的福特福克斯汽车每加仑汽油可以行驶37英里至43英里。尽管消费者希望自己的汽车越省油越好,但是一般来说不可能每加仑汽油行驶80英里。
逻辑:中心极限定理
非常多的现象都表现为正态分布:动物和植物的体型大小,学生在考试中的成绩,便利店每天的销售额,海胆的寿命,等等。中心极限定理表明为什么对随机变量求和或取均值会产生正态分布。
中心极限定理
只要各随机变量是相互独立的,每个随机变量的方差都是有限的,且没有任何一小部分随机变量贡献了大部分变差,那N ≥20个随机变量的和就近似一个正态分布。 2
中心极限定理一个非常重要的特征是,随机变量本身不一定是正态分布的。它们可以有任何分布,只要每一个随机变量都具有有限的方差,并且它们中的任何一小部分随机变量都不贡献大部分方差。假设,在一个500人的小城镇中,人们的购买行为数据显示,每个人平均每个星期花费100美元。在这些人中,可能有些人这个星期只花50美元、下个星期则花150美元,另一部分人可能每3个星期花费300美元。而其他人则可能每个星期的花费在20至180美元之间。只要每个人的支出都只有有限的变差并且没有任何一小部分人贡献了大部分变差,那么分布的总和必定是一个正态分布,其均值为50 000美元。每个星期的总支出也将是对称的:可能高于55 000美元,也可能低于45 000美元。根据同样的逻辑,人们购买的香蕉、牛奶以及炸玉米饼的数量也都是正态分布的。
我们还可以应用中心极限定理来解释人类身高的正态分布。一个人的身高取决于基因、环境以及两者之间的相互作用。基因的贡献率可能高达80%,因此不妨假设身高只取决于基因。研究表明,至少180个基因有助于人体长高。 3 例如,一个基因可能有助于长出较长的颈部或头部,另一个基因可能有助于长出更长的胫骨。虽然基因之间存在相互作用,但我们可以假设在“长高”这件事情上,每个基因都是相互独立的。如果身高等于180个基因贡献的总和,那么身高将呈现正态分布。相同的逻辑可以证明,狼的体重和大熊猫的拇指长度也是如此。
功能:应用分布知识
我们对正态分布的第一个应用将揭示:为什么罕见结果在规模小的群体中更常见,为什么最好的学校往往规模较小,为什么癌症发病率最高的郡县人口较少。回想一下,在一个正态分布中,95%的结果位于两个标准偏差内,99%的结果位于三个标准偏差内,根据中心极限定理,一组独立随机变量的均值将是正态分布的(当然方差要满足前述要求)。由此可见,我们可以非常确信:考试分数的总体平均值也将是正态分布的。然而,随机变量平均值的标准差并不等于变量标准差的平均值,而且总和的标准差也不等于标准差的总和。相反,这些关系取决于总体大小的平方根。
平方根法则(The square root rules)
N 个相互独立的随机变量,都具有标准差σ ,对这些随机变量的值的标准差σ μ 和对这些随机变量总和的标准差σ Σ ,分别由以下公式给出: 4
均值的标准差公式表明,大的总体的标准差要比小的总体的标准差低得多。由此可以推断,在小的群体中应该会观察到更多的好事和更多的坏事。事实上我们确实观察到了:最安全的居住地是小城镇,但最不安全的地方也是小城镇;肥胖率和癌症发病率最高的那些郡县的人口较少。这些事实都可以通过标准差的差异来解释。
如果不考虑样本量,直接根据离群值(异常值)推断因果关系可能会导致相当糟糕的政策行为。出自这个原因,美国统计学家霍华德·魏纳(Howard Wainer)将均值标准差公式称为“世界上最危险的方程式”。例如,在20世纪90年代,盖茨基金会和其他一些非营利机构以“最好的学校都是小学校”为依据,倡导将大学校分拆为小学校。 5 为了揭示这种推理的逻辑缺陷,试想一下,现在有两所学校,一所是只有100名学生的小学校,另一所是有1 600名学生的大学校,并假设这两所学校学生的成绩均来自相同的分布,平均分为100,标准差为80。在小学校中,平均值的标准差等于8,即学生成绩的标准差80除以学生人数的平方根10。而在大学校中,平均值的标准差则等于2。
如果以平均分为标准,把那些平均成绩在110以上的学校称为“优秀”,把平均成绩在120以上的学校称为“非常优秀”,那么将只有小学校才有可能达到这个标准。对于小学校而言,平均成绩为110时,只比总体均值高出了1.25个标准差,这类事件发生的概率大约为10%。而平均成绩为120时,则比总体均值高出了2.5个标准差,这类事件大约150所学校发生一次。对大学校进行相同的计算时,我们却会发现“优秀”阈值意味着比均值高5个标准差,而“非常优秀”阈值则比均值高10个标准差!实际上这类事件永远不会发生。因此,最好的那些学校普遍规模较小这个“事实”并不能证明小学校的表现更好。即便学校规模本身完全没有影响,“最好的学校都很小”这种事情也会发生,因为平方根法则会起作用。
检验显著性
我们还可以利用正态分布的规律来检验各种平均值的显著性差异。如果经验均值与假设均值之间的偏差了超过两个标准差,那么社会科学家就会拒绝这两种均值相同的假设。 6 现在提出这样一个假设,即巴尔的摩的通勤时间与洛杉矶的通勤时间相同。假设数据表明,巴尔的摩的通勤时间平均为33分钟,而洛杉矶为34分钟。如果这两个数据集的均值标准差都是1分钟,那么我们就不能拒绝巴尔的摩和洛杉矶两地通勤时间相同的假设。虽然二者的均值不同,但只存在1个标准差。如果洛杉矶的平均通勤时间为37分钟,那么我们就会拒绝这个假设,因为均值之间相差4个标准偏差。
但是,物理学家可能不会拒绝这样的假设,至少当数据来自物理实验时不会。物理学家采用更严格的标准,因为他们拥有更大的数据集(原子的数量远远超过了人的数量),数据也更“干净”。物理学家在2012年证明希格斯玻色子(Higgs boson)存在时所依据的证据,在700万次试验中随机出现不到一次。
美国食品药品监督管理局(FDA)所使用的药物批准程序也包含了显著性检验。如果一家制药公司声称自己研发的某种新药可以减轻湿疹的严重程度,那么这家公司就必须进行两项随机对照试验。为了构建一项随机对照试验,该公司组织了两个相同的湿疹患者群体。一组接受这种药物治疗,另一组则只使用安慰剂。试验结束后,比较平均严重程度和平均副作用发生率。然后,该公司还要进行统计检验。如果药物显著地缓解了湿疹症状(以标准差衡量)且没有显著地导致副作用,则可以批准该药物。美国食品药品监督管理局并没有使用严格的双标准差规则。治疗某种致命疾病且同时只会导致轻微副作用的药物比能够缓解真菌导致的灰指甲症状但同时却会导致骨癌发病率高于预期的药物的统计标准更低。美国食品药品监督管理局还关注统计检验的效力,也就是测试能够证明药物有效的概率。
六西格玛方法
这里要讨论的正态分布规律的最后一个应用是六西格玛方法,我们将说明正态分布是如何通过六西格玛方法为质量控制提供有效信息的。六西格玛方法是摩托罗拉公司于20世纪80年代中期提出的,目的是减少误差,该方法根据正态分布对产品属性进行建模。试想这个例子:一家企业专业生产制造门把手所用的螺栓。它生产的螺栓必须天衣无缝地与其他制造商生产的旋钮组装在一起。规格要求是螺栓直径为14毫米,但是任何直径介于13毫米与15毫米之间的螺栓也可以接受。如果螺栓的直径呈正态分布,均值为14毫米,标准差为0.5毫米,那么任何超过两个标准差的螺栓都是不合格的。两个标准差事件发生的概率为5%,这个概率对于一家制造企业来说太高了。
六西格玛方法涉及缩减标准差的大小从而降低生产出不合格产品的可能性。各企业可以通过加强质量控制来降低误差率。2008年2月26日,星巴克超过7 000家门店停止营业3小时,目的是重新培训员工。与此类似,航空公司和医院所用的检查清单也有助于减少变差。 7 六西格玛方法降低了标准差,这样即使出现了6个标准差的误差,也可以避免出现故障。在生产螺栓这个例子中,就要求必须把螺栓直径的标准差减少至1/6毫米。而6个标准差的含义是,误差率仅为十亿分之二。实际使用的阈值假设1.5个标准差的出现是不可避免的。因此,一个六西格玛事件实际上对应于一个四个半西格玛事件,这时允许的误差率大约为三百万分之一。
在六西格玛方法中应用中心极限定理(即隐含的加性误差模型)是如此微妙,因而几乎没有什么人注意到。螺栓制造企业不可能精确地测量每个螺栓的直径,它可能会抽样几百个,并根据这样一个样本来估计均值和标准差。然后通过假设直径的变差源于多种随机效应的总和,例如机器振动、金属质量变化以及压力机温度和速度的波动,就可以利用中心极限定理推断出正态分布。这样一来,这家螺栓制造企业就可以得出一个基准标准差,然后花大力气去降低它。
对数正态分布:乘法冲击
中心极限定理要求我们对随机变量求和或求平均值,以获得正态分布。如果随机变量是不可相加而是以某种方式相互作用的,或者如果它们不是相互独立的,那么产生的分布就不一定是正态分布。事实上,一般情况下都不会是。例如,独立随机变量之间的乘积就不是正态分布,而是对数正态分布。 8 对数正态分布缺乏对称性,因为大于1的数字乘积的增长速度比它们的和的增长速度快,比如,4+4+4+4=16,但4×4×4×4=256;而小于1的数字的乘积则比它们的和小,比如, ,但 。如果将20个不均匀地分布在0到10之间的随机变量相乘,那么多次相乘后所得到的乘积将会包括一些很接近于零的结果与一些相当大的结果,从而生成如图5-2所示的对数正态分布。
图5-2 一个对数正态分布
一个对数正态分布的尾部长度取决于随机变量相乘的方差。如果它们的方差很小,尾巴就会很短,如果方差很大,尾巴就可能会很长。如前所述,将一组很大的数相乘会产生一个非常大的数字。在各种各样的情况下都会出现对数正态分布,包括英国农场的大小,地球上的矿物质的浓度,从受到感染到症状出现的时间,等等。 9 大多数国家的收入分布也近似于对数正态分布,尽管在最顶端,许多点会偏离对数正态分布,因为高收入的人“太多”了。
一个简单的模型可以解释为什么收入分布更接近于对数正态分布而不是正态分布。这个模型将与工资增长有关的政策与这些政策所隐含的分布联系起来。大多数企业和机构都按某种百分比来分配加薪,表现高于平均水平的人能够得到更高百分比的加薪,表现低于平均水平的人则只能得到更低百分比的加薪。与这种加薪方法相反,企业和机构也可以按绝对金额来分配加薪,例如普通员工可以获得1 000美元的加薪,表现更好的人可以获得更多,而表现更差的人则只能获得更少。
百分比加薪方法与绝对金额加薪方法两者之间的区别乍一看似乎只是语义上的区别,但其实不然。 10 如果每一年的绩效都是相互独立且随机的,那么根据员工绩效按百分比加薪,就会产生一个对数正态分布。即使后来的表现相同,未来几年的收入差距也会加剧。假设一名员工因过去几年表现良好,收入水平达到了80 000美元,而另一名员工则只达到了60 000美元。在这种情况下,当这两名员工的表现同样出色并都可以获得5%的加薪时,前者能够获得4 000美元的加薪,后者却只能得到3 000美元的加薪。这就是说,尽管绩效完全相同,不平等也会导致更大的不平等。如果企业按绝对数额分配加薪,那么两名绩效相同的员工将获得相同的加薪,由此产生的收入分布将接近正态分布。
小结
在本章中,我们讨论了正态分布的结构、逻辑和功能。我们看到,正态分布可以用均值和标准差来表示。中心极限定理说明,当我们将有限方差的独立随机变量相加或求平均值时,正态分布是如何产生的。还给出了随机变量的均值与总和的标准差公式,阐述了这些性质会带来的后果。我们现在已经知道,小的群体更有可能呈现异常事件,如果缺乏对这类事件的洞察力,就会做出不正确的推断并采取不明智的行动。我们还了解到,假设随机变量服从正态分布,科学家就可以对统计检验的显著性和效力做出判断。本章还分析了在过程管理中如何利用正态假设来预测失败发生的可能性。
并不是每个量都可以写成独立随机变量的总和或平均值,因此并非所有事件都满足正态分布。有一些量是独立随机变量之间的乘积,因此它们是对数正态分布的。对数正态分布只取正值,有更长的尾巴,意味着更大的事件和更多非常小的事件。当高方差的随机变量相乘时,尾部会变得更长。长尾分布的可预测性较差,而正态分布则意味着很强的规律性。作为一个预测规则,我们当然更倾向于规律性,而不是发生很大事件的可能性。因此,如果了解了生成各种各样分布的逻辑,我们将会获益匪浅。我们可能更希望随机冲击相加,而不是相乘,以减少发生很大事件的可能性。
06 幂律分布
既然在各种领域中都能发现发幂律分布,那么如果有某个机制可以解释所有这些幂律分布就太好了,可惜的是,这种机制并不存在。如果幂律分布的每一个实例都有一个独特的解释,那将更好,可惜的是,这也不是真的。相反,我们只拥有一系列能够生成幂律分布的不同模型,每个模型都能解释不同的现象。
在本章中,我们将重点放在两个幂律分布模型上。第一个模型是优先连接模型(preferential attachment model),它能够解释城市规模、图书销量和网络链接等;第二个模型是自组织临界模型(self-organized criticality model),它能够解释交通拥堵、战争伤亡,以及地震、火灾和雪崩的大小等。我们重新评估了特别大的事件的影响,并描述在预防和规划这些事件上的能力局限。
幂律分布的结构
在幂律分布中,事件发生的概率与事件大小的某个负指数成比例。例如,我们熟悉的函数 就描述了一种幂律。在这个幂律分布中,一个事件的概率与其大小成反比:事件越大,发生的可能性越小。因此,在幂律分布中,小事件的数量要比大事件要多得多。
长尾分布的含义
在这里,我们讨论长尾分布的三个含义,即它们对公平、灾难和波动性的影响。根据定义,与正态分布相比,长尾分布意味着少数几个大“赢家”(大崩溃、大地震、大火灾和严重的交通拥堵)和很多的“输家”;而正态分布则是关于均值对称的。长尾分布也可能增加波动性,因为更大实体中的随机波动会产生更大的影响。
公平
如果某一个人写的书更好、创作的歌曲更有吸引力、发表的论文学术水平更高,那么他应该比其他人获得更大的名声和更多的金钱。但是,如果另一个人只是因为表现得稍微好一点,或者完全靠碰巧走运就比其他人赚到了多得多的钱、获得了大得多的名声,那就有失公平了。就像我们在优先连接模型中看到的,因为马太效应,正反馈创造了少数大赢家。在市场中,要发生正反馈,人们必须知道别人买了什么商品,而且人们必须有能力购买商品。就手机上的应用程序而言,根本不存在可能会减慢正反馈的生产限制,长尾分布还包括灾难性事件:地震、火灾、金融崩溃和交通拥堵。尽管模型无法预测地震,但确实可以深入解释为什么地震的分布会满足幂律。这些相关的知识告诉我们各种强度的地震发生的可能性。我们至少知道会发生什么,尽管不知道什么时候会发生。
我们还可以使用这个模型来做一个很好的类比。请回想一下,第1章中讨论了席卷整个体系的金融机构的破产,我们可以将森林火灾模型应用到那种情况下:把银行和其他金融机构想象为网格上的树,网格上的邻接则表示存在未偿还的贷款。一个银行破产相当于一棵树着火,而火势有可能会蔓延到邻近的银行。
当银行的“密度”变得越来越高的时候,这种看似浅显的森林火灾模型就预示着大规模的银行破产随时可能发生。不过,在深入探析这个类比时,我们可以发现它存在四个方面的缺点。第一,金融机构的网络并未嵌入物理空间,各家银行的连接数也不相同,有的银行可能拥有几十项金融债务,而有些银行则可能只有一两项金融债务。第二,森林中的树木不能主动采取行动来减少火势蔓延的可能性,但是银行却可以,它们可以提高自己的储备水平。
第三,一家银行拥有的连接越多,其破产会产生连锁反应的可能性就越低,因为它的损失已经分散到了更多的银行身上。例如,如果一家银行只从另一家银行借款,那么如果它在借来的1亿美元的贷款上出现了违约,第二家银行可能会破产。但是,如果第一家银行是从其他25家银行分别借款的,那么任何一家银行都不至于受到重创。在这种情况下,银行体系可以很好地消化这个违约事件而不会崩溃。 16
第四,从一家银行的破产到另一家银行的破产,这种蔓延会不会出现还取决于银行的投资组合。如果两家“相连”的银行拥有相似的投资组合,那么当一家银行破产时,另一家银行也可能早就脆弱不堪了,这时银行破产蔓延的可能性就很大。如果整个网络中的所有银行都拥有相同的投资组合,那么最糟糕的情况就很可能会出现。在这种情况下,当一家银行破产时,就可能会出现普遍的银行破产。 但是,如果每家银行分别持有不同的投资组合,那么一家银行表现不佳并不意味着其他银行也表现不佳。在这种情况下,银行破产就可能不会蔓延。因此,一个模型要想真正有用,就必须考虑到各种不同的投资组合。如果没有这些信息,那么即便知道哪些银行对其他银行负有未偿还债务也不足以预测或防止银行破产,而且银行之间的高互连性的净效应也是不明确的。
如果组成幂律分布的实体规模出现了波动,那么幂律的指数就可以作为衡量系统层面波动性的一个代表。由此可以推断,企业规模的分布应该会影响市场波动性。
设想长尾分布的世界
在长尾分布中,大事件发生的概率必须加以考虑。在本书讨论的多个模型中,长尾分布是由于反馈和相互依赖性而产生的。我们应该高度注意这个结果。随着世界中相互联系性的提高和反馈的增加,我们应该会观察到更多的长尾分布,同时现在关注的这些长尾分布的尾部也可能会进一步拉长。这就是说,不平等可能会增加,灾难可能变得更大,波动性也会变得更加剧烈。这些都是不可取的。
07 线性模型
模型通常假定变量之间存在某种特定的函数关系。这种关系可以是线性的,也可以是非线性的。
相关关系vs. 因果关系
回归所揭示的是变量之间的相关关系,而不是因果关系。如果先构建了某个模型,然后用回归检验模型的结果是否得到数据的支持,但那也不能证明因果关系。但是,在我们能够用回归发现显著的相关性之前,有一种方法远比回归方法好,这种方法就是通常所称的“数据挖掘”(data mining)。但是,数据挖掘存在识别与其他因果变量相关的某个变量的风险。
数据挖掘还可能导致虚假的相关关系,即两个变量只是偶然相关。
我们可以通过创建训练集(training set)和检验集(testing set)来避免报告虚假相关。在训练集上发现的相关性,如果也存在于检验集上,就更可能是真实的。但即便是这样,我们仍然无法保证那就是因果关系。为了证明因果关系,还需要进行一个实验来操纵自变量并观察因变量是否会随之发生变化,或者也可以想办法找到可以证明这类因果关系的自然实验。
多元线性模型
大多数现象都有不止一个因果变量和相关变量。一个人的幸福可以归因于身体健康、婚姻美满、子女、宗教信仰和财富等。一栋房子的价值取决于室内面积、庭院大小、浴室数量、卧室数量、建筑类型以及当地学校的质量等。在解释房子价值的时候,可以把所有这些变量都包含在回归中。但是必须记住,随着添加更多的变量,也就需要更多的数据,不然无法得到显著的系数。
总而言之,线性模型需要假定效应大小不变。线性回归为我们对数据进行第一轮加工提供了一个强大的工具,有了它,我们能够识别出变量的符号、大小和显著性。
请记住,线性模型只是一个开始,大多数有趣的现象都不是线性的。因此,回归模型通常会包括非线性项,例如年龄的平方、年龄的平方根,甚至包括年龄的对数。为了解释非线性,我们还可以将线性模型首尾相连,这些连接起来的线性模型可能近似于曲线,就像我们可以使用直边的砖块来砌出弯曲的路径一样。虽然线性可能是一个强大而不切实际的假设,但是它至少提供了一个很好的起点。在给定了数据的情况下,可以使用线性模型来检验我们的直觉判断。然后,我们可以构建更精细的模型,其中变量的影响会随着它的增加(收益递减)或变得更强大(正回报)而减弱。
08 非线性模型
索洛 * 增长模型
模型证明,资本积累可以实现快速增长,技术投资也可以。一个实物资本较少的落后国家,有可能通过新的资本投入进入技术前沿,从而实现难以置信的高速增长。
创新对长期增长来说是必不可少的,这种必要性也意味着一次性进口新技术有很大的局限性,而持续增长需要创新。
这些模型也表明,攫取和腐败,也就是政府将经济体的产出挪用于政府开支,会减少储蓄,进而削弱增长。实现这些目标,需要一个强大但有限的中央政府来促进多元化。强大的中央政府能够保护产权、贯彻法治。多元主义能够阻止精英的俘虏,精英往往更喜欢现状,可能不会接受创新,因为创新往往可能具有很大的破坏性。
09 熵:对不确定性建模
熵是对不确定性的一个正式测度。利用熵,我们可以证明不确定性、信息内容与惊喜之间的等价性。低熵对应于低不确定性,同时揭示的信息很少。如果某个结果发生在低熵系统中,例如太阳从东方升起,我们并不会感到惊讶。而在高熵系统中,比如在抽奖时抽中了某个数字,结果是不确定的,并且实现的结果能够揭示信息。在这个过程中,我们经历了惊喜。
利用熵,可以比较不同的现象。我们可以判断新西兰的选举结果是不是比联合国对谴责某个国家的方案的投票结果更不确定,还可以将股票价格的不确定性与体育赛事结果的不确定性进行比较,也可以利用熵的概念来区分四类结果:均衡、周期性、复杂性和随机性。我们可以将看似随机的复杂模式和真正的随机性区分开来,并且可以分辨出哪些现象看起来像是有一定模式的,但事实上是随机的。
我们还可以使用熵来表征分布。在没有控制或调节力量的情况下,一些群体可能会向最大熵漂移。给定特定的约束条件,例如不变的均值或方差,就可以解出最大熵分布。最大熵分布的结果还可以用来证明某些分布比其他分布更优,从而能够对我们在建模时的选择起到指导作用。