由于各种原因,回归系数可能不稳定。回归分析要求因变量Y为正态分布,并对异常值较为敏感,异常值问题和共线性问题、异方差问题都可能导致回归结果出现偏差。并且通过回归分析我们无法了解X对于Y的影响趋势的变化过程,而分位数回归则能很好地解决这一问题。
分位数回归(Quantile regression, QR回归),其原理是将数据按因变量进行拆分成多个分位数点,研究不同分位点情况下时的回归影响关系情况。总结来看,分位数回归主要有两个作用如下:
(1)分析X对于Y的影响趋势情况
(2)用于回归模型的稳健性分析
1、背景
当前进行一项雇员工资影响因素研究(200个样本),影响因素X共有三项,分别是‘起始工资’,‘受雇月数’和‘受教育年限’。因变量Y为当前工资。
当前研究显示起始工资,受雇佣月数,受雇月数和受教育年限均会对当前工资产生正向影响关系。
但是现在希望研究这种影响关系是否一直稳定,有没有变化趋势,比如当前工资水平不同的群体,他们受到3个因素的影响关系是否一致,影响幅度是否有变化等。由于数据较大,因而对数据进行取对数处理后再进行分析。
2、操作步骤
本例中,研究3个X(‘起始工资’,‘受雇月数’和‘受教育年限’)对于因变量(Y)即当前工资的影响情况,并且将分位数点拆分成10段,分别从0.05~0.95,间隔为0.1;以便查看当前工资在不同分位点时,受到3个X的影响变化趋势情况:
SPSSAU共提供三种分位数类型:
第1种是分位数从0.05到0.95(间隔0.1);
第2种是分位数从0.1到0.9(间隔0.1);
第3种是分位数从0.25到0.75(间隔0.25);
如果是想查看影响关系的趋势情况,一般使用前2种;如果仅仅是想看回归模型的稳健性情况,一般使用第3种。
3、输出结果
满屏密密麻麻的数据乍一看还真有点看不明白。但如果把表格拆分来看就能很清晰地发现,上图显示的分别是三个自变量X,在不同分位数点上的回归系数以及显著性检验情况,由此便可得到每个变量X对Y的影响趋势。
根据上表格结果显示,不同分位数点上,起始工资、受雇月数、受雇佣年限对当前工资的均有着明显的正向影响关系。
结合输出图形可具体分析每个X对Y的影响趋势。
上图显示,在当前工资分位数水平为0.35或更低时,起始工资对于当前工资有着显著的正向影响,但是影响幅度相对较低。当前工资分位数水平高于0.35时,起始工资对当前工资有正向影响,而且影响幅度相对较高。也说明了工资水平较低的群体,他们受到起始工资的影响幅度有限;而工资水平较高的群体,他们受到起始工资的影响幅度相对较高。
根据同样的方法,可以看出受雇佣月数越长,当前工资水平也会越高。但是明显的看到,当前工资在0.95分位数点时,即工资水平最高的top5群体,他们工资水平受到受雇佣月数的影响明显非常高。
而对于受教育情况,可以看出分位数达到0.25前,影响趋势是呈上升趋势。但提升到一定程度(工资水平为25%分位点)时,教育年限对于工资的影响开始下降,并且截止到工资水平为35%分位数点后,这种影响关系会消失,工资水平不再受到受教育年限的影响。
结果可描述为:工资较低群体,受教育年限越高,工资会越多,而且在一定范围内,这种影响关系会越来越高;但工资水平达到一定程度后,受教育年限对工资不再有任何影响关系。
其他说明
1、如果分析影响趋势变化情况,需要先确认是否回归系数呈现出显著性。
2、很多时候OLS回归显著有影响,但某个分位数点时却不显著;这种情况非常正常,原因在于分位数回归分析更加深入,具体到每个分位数点时的影响关系研究,而OLS回归只是一个综合概括分析。
3、除了研究影响趋势外,分位数回归还可用于回归模型的稳健性分析。
更多干货内容可登录SPSSAU官网查看