基础知识
一.线性相关分析:研究两个变量间线性关系的程度
用相关系数r来描述,关于r的解读:
(1)正相关:如果x,y变化的方向一致,如身高与体重的关系,r>0;一般地,
|r|>0.95 存在显著性相关;
|r|≥0.8 高度相关;
0.5≤|r|<0.8 中度相关;
0.3≤|r|<0.5 低度相关;
|r|<0.3 关系极弱,认为不相关
(2)负相关:如果x,y变化的方向相反,如吸烟与肺功能的关系,r<0;
(3)无线性相关:r=0。
如果变量Y与X间是函数关系,则r=1或r=-1;如果变量Y与X间是统计关系,则-1<r<1。
(4)r的计算有三种:
①Pearson相关系数:对定距连续变量的数据进行计算。
②Spearman和Kendall相关系数:对分类变量的数据或变量值的分布明显非正态或分布不明时,计算时先对离散数据进行排序或对定距变量值排(求)秩。
实际上,对任何类型的变量,都可以使用相应的指标进行相关分析。也就是,有各种参数,对适合它们的变量进行分析。
二.相关计算的其他系数
1 对于有序变量,最常用的还有Gamma统计量,取值介于1到-1之间,取值为零时候,代表完全不相关。其实,对于任何相关系数,一个万能公式就是,如果越接近零,代表越不相关,越接近1,代表越相关。
在spss中,各种变量都被分到各个栏中,下面对应着各种统计量。这部分操作是:“描述统计”~“交叉表”:“统计量”子对话框中实现。需要注意的是,虽然都是复选框,但是,也不能乱选,主要看想要分析的究竟是什么类型的变量。
2、偏相关分析:研究两个变量之间的线性相关关系时,控制可能对其产生影响的变量。如控制年龄和工作经验的影响,估计工资收入与受教育水平之间的相关关系。
3、距离分析:是对观测量之间或变量之间相似或不相似程度的一种测度,是一种广义的距离。分为观测量之间距离分析和变量之间距离分析。
(1)不相似性测度:
·a、对等间隔(定距)数据的不相似性(距离)测度可以使用的统计量有Euclid欧氏距离、欧氏距离平方等。
·b、对计数数据使用卡方。
·c、对二值(只有两种取值)数据,使用欧氏距离、欧氏距离平方、尺寸差异、模式差异、方差等。
(2) 相似性测度:
·a、等间隔数据使用统计量Pearson相关或余弦。
·b、测度二元数据的相似性使用的统计量有20余种。
三.相关关系/复相关/偏相关/定序变量的概念及区别
1.相关关系:相关分析与回归分析在实际应用中有密切关系。然而在回归分析中,所关心的是一个随机变量Y对另一个(或一组)随机变量X的依赖关系的函数形式。而在相关分析中 ,所讨论的变量的地位一样,分析侧重于随机变量之间的种种相关特征。例如,以X、Y分别记小学生的数学与语文成绩,感兴趣的是二者的关系如何,而不在于由X去预测Y。
2.复相关:研究一个变量 x0与另一组变量 (x1,x2,…,xn)之间的相关程度。例如,职业声望同时受到一系列因素(收入、文化、权力……)的影响,那么这一系列因素的总和与职业声望之间的关系,就是复相关。复相关系数R0.12…n的测定,可先求出 x0对一组变量x1,x2,…,xn的回归直线,再计算x0与用回归直线估计值悯之间的简单直线回归。复相关系数为R0.12…n的取值范围为0≤R0.12…n≤1。复相关系数值愈大,变量间的关系愈密切。
3.偏相关:研究在多变量的情况下,当控制其他变量影响后,两个变量间的直线相关程度。又称净相关或部分相关。例如,偏相关系数r13.2表示控制变量x2的影响之后,变量 x1和变量x3之间的直线相关。偏相关系数较简单直线相关系数更能真实反映两变量间的联系。
偏相关系数、复相关系数、简单直线相关系数之间存在着一定的关系。以3个变量x1,x2,x3为例,它们有如下的关系:
http://baike.baidu.com/pic/%E7%9B%B8%E5%85%B3%E5%88%86%E6%9E%90/5905339/0/43e6c73351f6ed02ad4b5f81?fr=lemma&ct=single公式。。。
或
http://baike.baidu.com/pic/%E7%9B%B8%E5%85%B3%E5%88%86%E6%9E%90/5905339/0/ac2fc3c4d6bfbd8a39db4983?fr=lemma&ct=single公式。。。
4.定序变量:讨论两个定序变量间的相关的程度与方向,又称等级相关。???例如,研究夫妇双方文化程度的相关等。等级相关系数有R系数和γ系数。???
R系数 计算方法与简单直线相关系数相同。
http://baike.baidu.com/pic/%E7%9B%B8%E5%85%B3%E5%88%86%E6%9E%90/5905339/0/30ecd5ef55607777acafd58f?fr=lemma&ct=single公式。。。
X,Y分别为x,y的测量值的等级。
英国统计学家 C.E.斯皮尔曼从R系数中推导出简捷式,称斯皮尔曼等级相关系数:
http://baike.baidu.com/pic/%E7%9B%B8%E5%85%B3%E5%88%86%E6%9E%90/5905339/0/d56b363437f73f7a5bb5f58a?fr=lemma&ct=single公式。。。
式中di=xi-yi,i=1,2,…,N(N为次数)。
等级相关系数 R具有与简单直线相关相同的性质:取值范围在〔-1,+1〕之间;R的绝对值愈大,变量间的等级相关程度愈大。
γ系数 适用于资料次数N 很大的情况。
http://baike.baidu.com/pic/%E7%9B%B8%E5%85%B3%E5%88%86%E6%9E%90/5905339/0/ae826731a33b8f58ebc4af95?fr=lemma&ct=single公式。。。
式中Ns为同序对数目,Nd为异序对数目。
同序对表示两个个案(xi,yi)和(xj,yj)相比时,具有xi>xj,则yi>yj的性质;反之,若xi>xj,但yi<yj,则称作一个异序对。
γ系数的取值范围在〔-1,+1〕之间。γ的绝对值愈大,变量间的等级相关程度愈大。
四.Pearson,Kendall和Spearman三种相关分析方法异同
在SPSS软件相关分析中,pearson(皮尔逊), kendall(肯德尔)和spearman(斯伯曼/斯皮尔曼)三种相关分析方法有什么异同:
两个连续变量间呈线性相关时,使用Pearson积差相关系数,不满足积差相关分析的适用条件时,使用Spearman秩相关系数来描述.
Spearman相关系数又称秩相关系数,是利用两变量的秩次大小作线性相关分析,对原始变量的分布不作要求,属于非参数统计方法,适用范围要广些。对于服从Pearson相关系数的数据亦可计算Spearman相关系数,但统计效能要低一些。Pearson相关系数的计算公式可以完全套用Spearman相关系数计算公式,但公式中的x和y用相应的秩次代替即可。
Kendall's tau-b等级相关系数:用于反映分类变量相关性的指标,适用于两个分类变量均为有序分类的情况。对相关的有序变量进行非参数相关检验;取值范围在-1-1之间,此检验适合于正方形表格;
计算积距pearson相关系数,连续性变量才可采用;计算Spearman秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据; 计算Kendall秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据。
计算相关系数:当资料不服从双变量正态分布或总体分布未知,或原始数据用等级表示时,宜用 spearman或kendall相关
Pearson 相关复选项 积差相关计算连续变量或是等间距测度的变量间的相关分析
Kendall 复选项 等级相关 计算分类变量间的秩相关,适用于合并等级资料
Spearman 复选项 等级相关计算斯皮尔曼相关,适用于连续等级资料
注:
1若非等间距测度的连续变量 因为分布不明-可用等级相关/也可用Pearson 相关,对于完全等级离散变量必用等级相关
2当资料不服从双变量正态分布或总体分布型未知或原始数据是用等级表示时,宜用 Spearman 或 Kendall相关。
3 若不恰当用了Kendall 等级相关分析则可能得出相关系数偏小的结论。则若不恰当使用,可能得相关系数偏小或偏大结论而考察不到不同变量间存在的密切关系。对一般情况默认数据服从正态分布的,故用Pearson分析方法。
在SPSS里进入Correlate-》Bivariate,在变量下面Correlation Coefficients复选框组里有3个选项:
Pearson
Kendall's tau-b
Spearman:Spearman
spearman(斯伯曼/斯皮尔曼)相关系数
斯皮尔曼等级相关是根据等级资料研究两个变量间相关关系的方法。它是依据两列成对等级的各对等级数之差来进行计算的,所以又称为“等级差数法”
斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关来进行研究。
Kendall's相关系数
肯德尔(Kendall)W系数又称和谐系数,是表示多列等级变量相关程度的一种方法。适用这种方法的数据资料一般是采用等级评定的方法收集的,即让K个评委(被试)评定N件事物,或1个评委(被试)先后K次评定N件事物。等级评定法每个评价者对N件事物排出一个等级顺序,最小的等级序数为1 ,最大的为N,若并列等级时,则平分共同应该占据的等级,如,平时所说的两个并列第一名,他们应该占据1,2名,所以它们的等级应是1.5,又如一个第一名,两个并列第二名,三个并列第三名,则它们对应的等级应该是1,2.5,2.5,5,5,5,这里2.5是2,3的平均,5是4,5,6的平均。
肯德尔(Kendall)U系数又称一致性系数,是表示多列等级变量相关程度的一种方法。该方法同样适用于让K个评委(被试)评定N件事物,或1个评委(被试)先后K次评定N件事物所得的数据资料,只不过评定时采用对偶评定的方法,即每一次评定都要将N个事物两两比较,评定结果如下表所示,表格中空白位(阴影部分可以不管)填入的数据为:若i比j好记1,若i比j差记0,两者相同则记0.5。一共将得到K张这样的表格,将这K张表格重叠起来,对应位置的数据累加起来作为最后进行计算的数据,这些数据记为γij。
正态分布的相关检验
对来自正态总体的两个样本进行均值比较常使用T检验的方法。T检验要求两个被比较的样本来自正态总体。两个样本方差相等与不等时用的计算T值的公式不同。
进行方差齐次性检验使用F检验。对应的零假设是:两组样本方差相等。P值小于0.05说明在该水平上否定原假设,方差不齐;否则两组方差无显著性差异。
U检验时用服从正态分布的检验量去检验总体均值差异情况的方法。在这种情况下总体方差通常是已知的。
虽然T检验法与U检验法所解决的问题大体相同,但在小样本(样本数n)=30作为大样本)且均方差未知的情况下就不能用U检验法了。
均值检验时不同的数据使用不同的统计量
使用MEANS过程求若干组的描述统计量,目的在于比较。因此必须分组求均值。这是与Descriptives过程不同之处。
检验单个变量的均值是否与给定的常数之间存在差异,用One-Sample T Test 单样本T检验过程。
检验两个不相关的样本是否来自来具有相同均值的总体,用Independent-Samples T test 独立样本t检验过程。
如果分组样本不独立,用Paired Sample T test 配对t检验。
如果分组不止两个,应使用One-Way ANOVO一元方差分析(用于检验几个独立的组,是否来自均值相等的总体)过程进行单变量方差分析。
如果试图比较的变量明显不服从正态分布,则应该考虑使用一种非参数检验过程Nonparametric test.
如果用户相比较的变量是分类变量,应该使用Crosstabs功能。
当样本值不能为负值时用右侧单边检验。