人生就是由大大小小的选择组成的。小到今天早上吃什么,下午出门穿什么?大到应该选择什么职业?要不要与这个人结婚?孩子是选择公立学校还是私立学校?
那些小的选择随意一些倒也无妨,但是对于大的抉择则常常因为会影响到一个人的一生,而令人陷入纠结之中,焦虑犹豫,寝食难安。此时,真希望能有一个时光机!这样我们就可以自由地穿梭于时间隧道,通过对比来看一看做这种选择和不做这种选择到底哪个更好?
遗憾的是,人生是趟单程旅行,别说时间隧道了,哪怕是过了这一秒,我们都再也回不去了。所以应用于流行病和生物统计学的那种“临床实验”的因果推理方法很难运用到独立个体的人生选择上来,而经济学等社会科学领域因为与人密切相关,所以同样很难组织这样的实验。
但是因果推理毕竟是人们在做选择与做决策时极为重要的思维方法,所以20世纪90年代以来,因果推理在经济领域的运用有了较大变化。如今在美国“因果推理”是大学课程之一,无论是在商务和政治场合,还是在日常生活当中,人们都会自然而然的运用因果推理去交流,思考,而在日本则没有系统学习因果推理的机会。针对国内教育和医疗领域充斥着各种无稽之谈的乱象,两位日本学者凭借他们在各自领域应用因果推理的经验和心得,撰写成书,向普通读者普及因果推理的基本方法,这本书就叫《原因与结果的经济学》。
这两位作者一个名叫中室牧子,是教育经济学家;另一名作者名叫津川友介,是医生兼医疗政策专家。因此在《原因与结果的经济学》这本书中,他们常以日常生活中的教育和医疗课题为例,讲解因果推理的有关知识。本书的稀缺性、实用性和易读性,使它成为日本杂志《周刊钻石》2017年“最佳经济类图书第一名”。
正如作者所言,在这个数据已经泛滥的时代,理解因果推理已经成为我们每个现代人的必备素养——它会我们就能够更好地提高主动思考的能力,选择决策能力,而避免人云亦云,被各种荒唐可笑的论断牵着鼻子走了。
具体到一个普通人所需要了解的因果推理知识,主要包括三个方面的内容:
【1】明确因果关系,千万别“会错了意”
【2】判断因果关系,必须扫除“三个雷”
【3】推导因果关系,需要“可比性”实验
【1】明确因果关系,千万别“会错了意”
一家珠宝店想知道广告投放是否可以提高销售额,换句话说就是想确认广告投放与销售额之间的因果关系。决定宣布之后,各分店积极配合收集数据,在分析结果时却发现之前的努力全白费了!原来各分店对于所要收集的数据理解不同:关于广告,有的提供的是具体的广告费用,有的提供的却是广告投放的面积;而关于销售额,有的提供的是销售收入,有的提供的是税前利润。
由此可见,在因果推理之初,最重要的事是先要确定原因和结果的精准含义,以免因为理解偏差造成无效劳动,劳民伤财。
除此之外,我们还要明确一点:一个事儿发生了,另一件事儿也随着发生,此时可以确定两者存在“相关关系”,而因果关系显然也是相关关系当中的一种。但是,为了表述更加清楚,《原因与结果的经济学》这本书以及本文内所说的相关关系都是指不包含因果关系的狭义的概念。
【2】判断因果关系,必须扫除“三个雷”
判断两件事情之间是否真的存在因果关系,我们需要先用排除法扫雷。一旦在排查中发现这三个雷,那所谓的因果关系也就炸飞了。
2.1、是不是“纯属巧合”
一位美国信息分析员在《伪关系》一书中收集了很多有趣的事例,请看下图:
数据显示,“尼古拉斯·凯奇一年参演电影的数量”和“泳池里溺亡的人数”、“美国小姐的年龄”和“因取暖设备丧命的人数”都有很高的相关性,但是稍微有点脑子的人用脚趾头也能想明白这是非常荒唐的!
可能你会质疑,真的有人会拿“纯属巧合”当作因果关系吗?在一些不可控因素很高的领域这种事经常发生。比如,在股市上预测大盘的人就会相信这种伪相关——不知道大家有没有说听过美国股市的“吉普力的诅咒”,就是只要日本电台一放由宫崎骏导演领导的吉普力工作室的电影,美国股市就会下跌。这听起来好笑吗?可就连美国的《华尔街时报》都曾报道过这条法则。这就是“纯属巧合”的伪相关经典事例。(注:但好玩的是,股市上的这种法则一旦被多数人认可,就会出现刻意利用其进行炒作的投资行为,此时它就不再是纯粹的“巧合”了)
所以在判定“因果关系”推理过程中,首先要排除的就是“纯属巧合”。
2、有没有“混杂因素”
“混杂因素”说白了就是干扰因素,比如有一种说法认为“体力好的孩子学习能力强”,因此很多家长就开始督促孩子加强身体锻炼。但其实影响孩子学习能力的,除了体力还有其他因素,比如,父母是否热于衷教育:如果父母很愿意在教育孩子这方面花时间和精力,那么他们就会注重提高孩子的身体素质,同时督促他们去学习,因此孩子的学习能力也比较强。这时候,我们就很难判定提高孩子学习能力的原因,到底是体力,还是父母对教育的热衷程度。
从上图中我们可以看出父母对教育的热衷程度既影响了孩子的体力,也会影响他们的学习能力。所以在判断是不是存在因果关系的时候,一定要排除这些会影响原因和结果的“混杂因素”。
3、有没有“逆向因果关系”
“逆向因果关系”就是把原因和结果搞反了,比如说,数据显示一个区域内警察多的地方犯罪案件数量也多。这听起来挺让人困惑的。可仔细思考就会发生,合理的情况应该是:因为这个区域里犯罪案件比较多,所以部署了大量的警察。
因此在讨论因果关系时,一定要搞清楚哪个是原因,哪个是结果,免得闹笑话。
总之了解了因果关系中的三个雷,我们就可以在听到一种观点之后,先用排除法快速判断一下这种说法的合理性:是不是巧合,是不是有其它干扰因素,是不是搞反了。
【3】推导因果关系,需要“可比性”实验
前面我们通过一些简单的事例向大家讲明了判断因果关系需要扫除的三个雷,这些事例我们凭借常识,运用“扫雷法”很容易就可以做出判断。
那如果我们面对的是还没有定论的复杂情况时,又该怎么办呢?最可靠的方法就是把现实和“反事实”进行“可对性”实验(所谓“反事实”就是和现实相反的情况)。
我们还拿连锁珠宝店为例。比如说一家分店决定通过投放广告来提高销售额,而且还聘请了当红的艺人作为代言人,投放期定在12月下旬,刚好是新年之际。结果广告登出之后,销售额比去年同期增长了30%。
怎么证明这个增加是因为投放广告得来,而不是因为年底的消费热潮所致呢?最理想的情况是通过“反事实”的对比来验证,也就是对同一家店铺在同一时间段内把投放广告的数据和没投放广告的数据做对比。这听起来简直就是说梦话啊——“同时投放广告和不投放广告”,没有时光机,臣妾做不到啊!所以,很多时候“反事实”的情况很难制造出来,于是我们就需要创设出“可比较”的实验状态。
既然时间的特性是不可重复,那么想要创设“可比较”的模拟状态就只能通过两组对照方式来实现了。而如果要“同一对象”变成“两组对象”对比,那就必须要满足一个条件——“可比性”,就是说进行对比的两方在所有影响结果的特征上必须基本相似。比如刚才提到的珠宝店,要实现“可比较”状态,就必须两家分店在人口、居民平均收入、流行敏感度等所有可能影响珠宝销售额的方面都非常接近,才符合要求。如果一个珠宝店位于大城市,而另一个珠宝店位于地方城市,两个珠宝店就会因为人均收入以及价值观等多方面的差异而不具有可比性。
为了创设出“可比较”的实验状态,有多种方法:
3.1、随机对照实验法
大家都知道的“应用于临床药效”的小白鼠实验就属于随机对照实验,具体做法是这样的:将生病的小白鼠随机分成两组,一组用药(我们称为干预组),一组不用药(我们称为对照组),最后通过痊愈率来判断药效。在实验的过程中最关键的就是两个字“随机”,随机的意思就是不考虑小白鼠的个体差异,依赖偶然性的将它们进行分组。也就是说,所有的小白鼠都有相同的概率被划到干预组,这种方法被称为“随机分组”。我们平时经常采用的投硬币、抽签的方法都是属于随机实验。
有人可能会问,那小白鼠的个体差异造成的影响怎么解决呢?其实小白鼠的个体差异本身就不大,再加上准备足够多数量的个体进行随机划分,就能解决这个问题,使分组具有“可比性”。
既然这样,问题岂不是简单了?但实际情况常常不允许你采取随机分组的实验方法。因为很多被研究对象根本没有那么多数量的个体可用于随机分组,就算数量上满足,也还会出现其它问题。就比如连锁珠宝店 吧,即使他们有100家店铺,从数量上来讲具备做分组实验的条件,可是从运营的角度考虑,既没有让你做实验的时间,也不可能为了证明因果关系让没有投放广告的店铺蒙受销售损失,或者让投了广告没有获得销售额提高的店铺白白提高了运营成本。
除非刚好有机会做“自然实验”。
3.2、自然实验
什么叫“自然实验”呢?就是通过法律或者制度改变、自然灾害,战争等人们无法预测的变化,创造出了可以进行对照实验的环境。比如说,印制折页广告的印刷工厂未能及时完成印刷任务,导致部分店铺没能投放广告,这个时候就可以利用突发状况实现对比。
可是自然实验的机会显然是可遇不可求的。那么还有其它方法吗?答案是肯定的。方法就是对实验进行模仿,创造相似的环境,这种方法叫“准实验”。
3.3、准实验法
准实验的统计方法有很多种。比如双重差分法、工具变量法、断点回归法、匹配法,下面我们从中选两个工作当中好操作的方法做个介绍。
双重差分法
顾名思义,这个方法需要两个差异数据。
第一个:干预组和对照组实验前后各自的差异做比较,
第二个:把干预组和对照组各自的差异做比较。
听起来可以有点儿烧脑,我们回到珠宝店——
比如:a店为干预组,b店为对照组,a店去年投放了广告,b店没投。
第一个差异数据:a店投放前后的差额是400万元,b点前后差额是300万元,
第个二差异数据:两地销售额涨幅的差(分别是400和300)做比较(400-300=100万元)。
双重差分法得出的结果就是投放广告为店铺带来了100万元的销售额收益。
采用双重差分法需要满足两个条件:
第一个是趋势平行,图片比较直观(见上图)——从数据来看,图表4-9中2013年到2015年的趋势不平行,所以不可比较,而像图表4-10这样趋势是平行的,才可比较。
第二点就是没有出现影响销售额的其他混杂因素,比如投放广告的区域,有无热播电视剧出现了,店的产品等等。
工具变量法
比如,原本我们想把通过分组做广告投放与销售额的因果关系对比,结果却发现投放了广告的店和不投放广告的店相比,店长的工作状态天差地别。而由于分店都是由店长主管的,所以店长的工作状态就成了一个“不可比较”因素,使我们无法进行这个实验。
这时突然当地媒体搞了一次广告费打折活动,这时你就可以利用这个活动弄清楚广告投入对销售额的影响因素。此时,“广告费打折活动”就是所谓的“工具变量”,它的特点是对结果没有直接影响,但能够通过影响原因——换句话说广告费打折不会直接影响销售额,却可以影响店铺是否投放广告的决策,从而间接影响销售额。
为什么工具变量能帮助我们确定广告和销售额之间的因果关系呢?因为广告费打折以后投放广告的店铺自然要增多了,如果销售额也随之增长了,那么广告投放就与销售额具有因果关系,而如果投放广告的店铺增多,销售额却没有增长,那自然就证明广告和销售额之间不存在因果关系。
工具变量法的应用也有两个前提条件,第一个就是工具变量要能影响原因,但不能直接影响结果。另外就是要确保不存在同时影响原因和结果的“第四变量”。
好了,通过对因果关系判断和推导的方法介绍,你会发现整个过程还是很严谨的。对于那些需要通过大数据分析做决策的工作来说,你完全可以运用这些方法,提高对问题的判断力和解决力,而对于日常生活中的老百姓来说呢,哪怕只是了解了因果关系判断的三个雷,至少也可以很快地帮你判断出一个结论到底靠不靠谱。
总之,《原因与结果的经济学》通过丰富的案例和浅显的言语,让每一个普通人也能够学会因果推理的思考方法,使我们的生活多一点理性,少一点想当然。