相关性分析与回归分析的对比,从二者的定义,联系和区别三个方面来理解。
相关性分析(correlation analysis),考虑的是两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法,查看两个变量之间是否有相关性,比如人的身高和体重。
回归分析(regression analysis),考虑的是两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,是用一个变量对另一个变量进行预测,自变量和因变量的确定是很重要的,两个位置互换了其意义就完全不同了。
联系:相关分析是回归分析的前提,两个变量间只有在存在相关性的前提下才能进行回归分析。比如人的头发长短和工资之间毫无相关性,那么就无法用头发长度对工资进行解释和预测,同样也无法用工资来预测头发的长度。但是对于受教育程度和工资这两个变量,因为它们之间存在相关性,所以就可以用受教育程度对工资进行预测,但这也仅仅止步于回归分析,更进一步的因果分析(即因为受教育程度高,所以工资高)还需要勇其他方法来确定。
区别:
变量的位置顺序。依旧其目的本质不同,相关分析(测度客观存在的变量间联系的紧密程度)和回归分析(采用一个/多个变量对另一个变量进行预测,依靠变量间的依赖关系)的变量的位置顺序是很重要的,尤其是对于回归分析,一定要搞清楚是对哪个变量进行预测,进而寻找与其具有相关性的可能对其进行解释的变量。
变量的结果数值。在1的基础上可以看出,对于相关分析,变量确定,相关系数也是确定的,当然采用不同的相关性度量指标结果也不一样。而对于回归分析,在关心的因变量确定的情况下,为了对其进行解释,我们可以寻找一个或者多个的自变量,构建不同的回归模型,所得的结果系数也大不相同。
变量的显著性检验。对于相关性,其数值位于[-1,1]之间,显著性检验的目的是为了检验数值与0(没有相关性)之间是否存在统计上的不同,如果相关性数值在统计上与0存在差别,那么我们称两个变量存在相关性,并依据数值的正负判断是存在正相关还是负相关。然而对于回归分析,该情况稍微复杂了一点点,在所构建的回归方程中,一方面需要对自变量对因变量的贡献度(即回归系数)的显著性进行检验,该道理与相关性相同;另一方面需要对整体构建的方程对因变量的解释度进行检验,这个一般采用R2进行衡量;同时,还需要对整个模型的效能进行评估,这个时候需要采用诸如AIC或者BIC进行评判;同时,还需要注意变量之间的多重共线性等等。总之,回归分析时需要考虑的东西很多,这个可以稍后再讲。
最后,简单总结一下,如果是看相关性,那么就给出相关性系数和置信区间;如果是来做回归分析,那么给出回归方程和模型的效能,单个变量的显著性可以放在解释说明的部分。