去年10月份一篇读书笔记,当时看的是《基本无害的计量经济学》
对于协变量(独立变量,实验者不能操作,但是仍影响实验结果),作者引入倾向评分来控制协变量。
倾向评分定理指出我们只要将影响处理概率的协变量控制住就好。下面以一个例子来再阐述下~
例子:分析读研究生与否对小明同学的影响。
困难:小明已经读了研究生,怎么才能估计出他要是不读研究生,他的收入会是多少呢?
办法:引入“倾向得分匹配”,这种方法能让我们从一堆没有读研究生的人群中(即我们的总体样本的一个子集),对每个人读研究生的概率进行估计,然后选出和小明具有非常相似的去读研究生的概率,可是没有去读的小刚同学——作为小明的对照,然后再来看他们的区别。
步骤:
- 要对总体样本执行probit或者logit模型,然后估计出每一个观测对象读研究生的概率是多少。
probit [dependent var] [independent var]
其中,[dependent var]是一个0或1的二进制变量,1代表该对象读了研究生,否则是0。 - 对每一个观测值,我们根据估计出来的probit模型,算出他读研究生的概率是多少。
predict pscore, p
其中,pscore是定义的记录每个观测对象概率的变量名称。 - 使用psmatch2命令,让Stata帮你对于每个读了研究生的观测对象,找出一个与之具有最接近的概率值的,可是没有读研究生的观测对象
psmatch2 [dependent var], pscore(pscore) noreplacement
其中,(pscore)是在第二步中生成的那个记录对象概率的变量,noreplacement是一个选项,使得任何读了研究生的观察对象的对照对象都具有唯一性,换言之,只能1对1匹配。 - Stata会在你的数据中自动添加几个变量,其中_id是自动生成的每一个观测对象唯一的ID;_treated表示某个对象是否读了研究生,如果读了,_n表示的是他被匹配到的对照对象的_id;_pdif表示一组匹配了的观察对象他们概率值的差
倾向评分模型将我们的注意力从估计E[Yi|Xi,Di]转移到估计倾向评分p(Xi)=E[Di|Xi],在实际运用中后者更便于模型化。
但作者仍认为回归应该成为大部分经验研究项目的起点,尽管用倾向评分匹配我们提供了一个更加可靠的对平均处理效果的估计。因为在运用倾向评分方法进行匹配时有太多的细节需要考虑,比如如何模型化评分,如何进行推断,目前还没有形成一套标准,造成即使使用相同的数据和协变量,不同的研究者也可能得到不同的结果。
关于回归的细节,作者依次讨论了样本权重和被解释变量有限不连续。
对回归进行加权平均的一个简单经验就是当加权可使估计的数值更加接近总体的相应值时么就应该使用加权回归。比如,我们的被估计量是总体回归方程,但是用来估计的样本是非随机的,那么这时候用加权最小二乘法就很有道理。
很多经验研究中使用的被解释变量都只取有限的一些值。很多教科书说OLS适合于估计的被解释变量是连续变量的情形,当我们感兴趣的被解释变量取值有限时,线性回归模型就不合适,此时用类似于probit和tobit等非线性模型会更好。
但作者认为有限被解释变量带来的问题并不严重,因为回归的合法性来自它和条件期望函数之间的关系。在考虑边际效应时,线性模型和非线性模型下结论的差别很小。像奥拉姆剃刀原理所说“如无必要,勿增实体”。虽然计算边际效应很容易,但对于非线性模型还有很多问题要处理,特别是当我们在非线性模型中使用工具变量或者面板数据时,还会遇到更复杂的问题。
参考资料:
- 《基本无害的计量经济学》
- 倾向得分匹配(Propensity Score Matching) 的通俗解析及在Stata里的运用