在我们进行数据处理时,相关性分析是我们最常使用的分析方法之一。相关性,即衡量二个特征或者两个变量之间的关联程度。两个变量的相关关系意味着二者之间存在着某种数学关系。我们并不知道两个变量之间是否存在着实际关系通常我们计算的是两个特征的数组之间的相关系数。我们常用的相关性计算方法有哪些呢?
pearson相关系数:
Pearson correlation coefficient:用于检测两个变量是否线性相关,要求数据需来自于正态分布的总。相关系数在[-1,1]之间
cov(X,Y)协方差 (δX*δY) 二者标准差的乘积。
常规相关等级如下:
r = 0 二者完全不相关
0<|r|<=0.3 弱相关
0.3<|r|<=0.5 中等相关
0.5<|r|<=0.8 显著相关
0.8<|r|<=1 强相关
皮尔森相关系数适用范围:
适用于服从正态分布的两连续型变量,可绘制散点图,发现有线性趋势之后,进而计算Pearson相关系数,以此描述两变量的线性相关性。
Spearman秩相关系数
Spearman 相关评估两个连续或顺序变量之间的单调关系。在单调关系中,变量倾向于同时变化,但不一定以恒定的速率变化。Spearman 相关系数基于每个变量的秩值(而非原始数据)。Spearman 相关通常用于评估与顺序变量相关的关系。
优势:
- 1、即便在变量值没有变化的情况下,也不会出现像皮尔森系数那样分母为0而无法计算的情况。
- 2、 即使出现异常值,由于异常值的秩次通常不会有明显的变化(比如过大或者过小,那要么排第一,要么排最后),所以对斯皮尔曼相关性系数的影响也非常小
- 3、 斯皮尔曼相关性系数没有那些数据条件要求,适用的范围广
肯德尔相关性系数
Kendall's tau-b(肯德尔)等级相关系数:用于反映分类变量相关性的指标,适用于两个分类变量均为有序分类的情况。对相关的有序变量进行非参数相关检验;取值范围在[-1,1]之间,此检验适合于正方形表格。
kendall tau coefficent defined:
from MBA智库-Kendall等级相关系数
使用试剂:肯德尔等级相关系数是用以反应两组变量之间关系密切程度的统计指标。
(用的较少,后续再补充)
一般的都可以使用pearson和Spearman相关系数解决。
最大信息系数
进行机器学习特征筛选时,经常使用到的方法就有最大互信息系数。
最大信息系数(MIC)于 2011 年提出,它是用于检测变量之间非线性相关性的最新方法。用于进行 MIC 计算的算法将信息论和概率的概念应用于连续型数据。
MIC 能够表示各种线性和非线性的关系,并已得到广泛应用。它的值域在 0 和 1 之间,值越高表示相关性越强。
见参考资料《最大信息系数》
更多的需要学习(任重而道远啊,。。。。。)