相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。
相关分析分类
- 按方向来分,正相关,负相关和零相关
- 按形态来分,直线相关和曲线相关
- 按程度来分,完全相关,强相关和弱相关
相关系数
相关系数是用以反映变量之间相关关系密切程度的统计指标。
皮尔森相关系数,也称皮尔森积矩相关系数(Pearson product-moment correlation coefficient) ,是一种线性相关系数。
相关系数用r表示,其中n为样本量,r描述的是两个变量间线性相关强弱的程度。r的绝对值越大表明相关性越强。
斯皮尔曼等级相关(Spearman’s correlation coefficient for ranked data)主要用于解决称名数据和顺序数据相关的问题。适用于两列变量,而且具有等级变量性质具有线性关系。
n为等级个数,d为二列成对变量的等级差数
肯德尔(Kendall) 相关系数
其中n是项目的数量,和P的总和,对所有的项目,项目的数量排名后,给予这两个项目的排名。
适用条件
- Pearson相关系数:两变量必须是服从正态分布的连续变量
- Spearman相关系数:不服从正态分布的资料、原始资料等级资料、总体分布类型未知的资料
- Kendall相关系数: 变量均为有序分类的情况
正态分布
正态分布指的是变量的频数或频率呈中间最多,两端逐渐对称地减少,表现为钟形的一种概率分布。
当样本量大到一定程度时,都可以认为数据是服从正态分布的。