经济学是一门“经世致用”的学科,需要我们探寻经济事物之间的前因后果,从而了解经济现实的运行规则,为微观个体和宏观总体提供相应的建议和政策。今天就跟大家分享安神的《基本无害的计量经济学》中一些有关因果效应与选择性偏误的知识。
让我们考虑一个简单的例子:去医院接受治疗能够让人变得更健康吗?对于一个倾向于进行经验研究的人而言,自然而然的方法就是比较去过医院和没去医院的人在健康状况上的差异。
美国全国健康采访调查(NHIS)包含了进行这种比较的信息。具体而言,这个调查里包含这样一个问题,“在过去的12个月中,被访者是否曾因病在医院过夜?”,我们可以用这个问题来识别最近去过医院的人。全国健康采访调查还问,“总体而言,你觉得你的健康水平是极好、非常好、好、一般还是差?”。下面的表格给出了最近去医院和没有去过医院的人的平均健康状况(对健康状况最差的人赋值1,对健康状况最好的人赋值5)。
从表面上看,两者之间的平均差距是0.72,没有去过医院的人健康状况更好,这个结果意味着去医院会使人的健康状况变差。但是,我们很容易解释为什么这个结果不能只从表面上看:去医院的人可能本身健康水平就比较差。更进一步讲,即使在医院接受过治疗,那些到医院寻求治疗的人的健康水平还是不如没有去医院的人。
为了更精确地描述这个问题,我们将接受医院治疗定义为一个二值随机变量D_i,我们所考虑的研究对象的结果——对健康水平的度量,记为Y_i。我们的问题就是:Y_i是否受医院治疗D_i的影响。为了回答这个问题,我们可以想象去了医院的人如果没有去医院会发生什么,没有去医院的人如果去了医院会发生什么。对于任何个体,他们的健康状况都有两种潜在结果:
也就是说,假设一个人没有去医院,他的健康状况将是Y_0i,而不论他事实上有没有去;假设一个人去医院接受了治疗,他的健康状况将是Y_1i,而无论他事实上有没有去。我们想知道的是Y_1i和Y_0i之间的差距,这个差距可以解释为第i个人在医院接受的治疗对其健康状况产生的影响,也就是我们一直希望研究的因果效应。
而观察到的结果Y_i可以用潜在结果的线性组合表示:
在这个表达式中,Y_1i-Y_0i就是个体去医院接受治疗对其健康状况的影响。但是由于我们不能同时看到某个人的两种潜在的健康状况,所以我们必须比较同一类人去医院治疗和不去医院治疗对其健康状况的影响。通过简单比较,我们可以得到如下结论:
其中,E[Y_i | D_i=1]-E[Y_i | D_i=0]是简单比较去医院和没去医院的人在健康状况上的差异,尽管这种简单比较并非我们想要的,但是这种肤浅的比较还是能告诉我们一些关于潜在结果的有益信息。对于接受住院治疗的人,Y_i的平均值必然是Y_1i的平均值,但是它并未包含相应Y_0i的信息。类似的,对于没有接受住院治疗的人,Y_i的平均值必然是Y_0i的平均值,但是这个平均值并未包含相应Y_1i的信息。所以,这就为是否接受医院治疗导致的健康差异提供了一个简单而重要的结论:
在上式同时减一个和加一个E[Y_0i | D_i=1] ,我们即可得到有关因果效应和选择性偏误的有益信息。E[Y_1i | D_i=1]-E[Y_0i | D_i=1]=E[Y_1i-Y_0i | D_i=1]就是那些接受医院治疗的人因为在医院得到治疗而获得的平均因果效应。这里E[Y_1i | D_i=1]是接受住院治疗的人的平均健康水平,E[Y_0i | D_i=1]是接受住院治疗的人如果没有得到治疗,他们的平均健康水平。
我们能够观察到的健康状况的差异实际上由两部分组成,在我们关心的因果关系之外,剩下的那部分叫做选择性偏误(selection bias)。它是去医院接受治疗与不去医院接受治疗的人如果没有被治疗时健康状况的平均差别。由于患病者比健康人更加倾向于寻求治疗,所以那些接受住院治疗的人的初始健康水平Y_0i本身就比较低,从而使得选择性偏误是负的。
参考资料:
【美】乔舒亚·安格里斯特,约恩-斯特芬·皮施克. 基本无害的计量经济学:实证研究者指南[M].上海:格致出版社,2012.