统计学 |（2）协方差和相关系数

协方差是两个变量归一化前的相关系数，相关系数是标准化后的特殊协方差。相关系数更好反映了两变量间单位变量的相似性。

协方差是由方差演变过来的，方差表示单个变量的离散程度，协方差表示多变量之间的相对波动程度（含正相似和负相似）。相关系数 = 协方差/变量的标准差的乘积。

一、协方差（Covariance）

1. 三类关系趋势

如下，在测量5个肝细胞gene x 转录本表达情况的基础上，同时也测量这5个肝细胞gene y转录本表达量。对来自同一细胞（sample）的两个数据进行配对，利用其在X轴(green)和Y轴(red)上的数据在二维平面组成一个新的点（蓝色的点）并用直线对其进行拟合。

1）如果斜率为正，gene x与gene y在细胞中表达成正相关。gene x表达水平随gene Y表达水平的增加而增加。利用拟合的直线，可以根据gene x的表达量预测gene y表达水平，也可以基于gene y的表达量预测gene x的表达水平。

2）如果斜率为负，Gene x与gene y的表达呈现负相关趋势。较低的gene x表达水平对应较高的gene y表达水平，较高的gene x水平对应较低的gene y表达水平。

3）如果斜率为0或者斜率不存在，gene x与gene y的表达水平之间无关联。表现为gene y/x的表达水平不随gene x/y的表达量变化而变化。

小结：协方差的主要思想之一，其可以将数据分为三类关系：

正向趋势的关系；
负向趋势的关系；
无任何趋势的关系。

2. 引入协方差来描述三类关系趋势

协方差的计算公式：

当协方差为正时，gene x与gene y两变量间表现为正相关性。依次将数据代入公式，可以发现：两个黄色象限（一、三象限）的样本都对整体协方差做成正的贡献。协方差为116，它意味着gene x与gene y之间的拟合相关直线斜率是正值。因此，可以得出这样的结论：当协方差为正时，gene x与gene y之间呈正的变化趋势。

当协方差为负，gene x与gene y两变量间表现为负相关性。 假设gene y的值与以前不同，gene y的样本均值变为20.2。Gene x的值保持不变，gene x的均值为17.6。我们使用协方差的计算公式计算gene x与gene y的协方差，在黄色象限的数据对整体协方差做出负的贡献，最后协方差等于-105.15。因此可以得出结论：当协方差为负时，gene x与gene y两变量间的相关性直线的斜率为负。

将协方差为0时，gene x与gene y两变量间表现为无相关性。 同样的计算方法，我们可以推算出，当gene x与gene y表达水平无关系时，协方差等于0。因此可以得出结论：当协方差为0时，gene x与gene y两变量间无相关关系。

image

注意：协方差本身并不容易被阐释，它不能告诉我们相关性直线的斜率（陡峭或平坦），也不能告诉我们样本是否靠近相关性直线，它仅仅告诉我们两变量之间的相关性直线的斜率是正还是负。

3.协方差缺点：对数据的scale敏感

协方差对数据的scale敏感，使其不能揭示数据间的相关性程度。

例如，计算gene x与gene x的协方差，带入公式可得102；将gene x的表达水平扩大2倍后，求得gene x与其自身的协方差为408，是原来数据的4倍(如下)。故协方差对数据的scale非常敏感，此造成了协方差本身的难以阐释。

又例如：左边的数据较右边的数据更接近相关性直线，左边数据对应的协方差为102；右边数据对应的协方差为381，远大于左侧数据的协方差。将右侧数据同时缩小4倍后，数据距离相关性直线的距离未发生改变，但对应的协方差变为24，小于原来的协方差，也小于左侧数据的协方差。

4.小结：

$\color{red}{协方差值并不能告诉我们关系强弱，只能告诉我们是正/负相关}$
$\color{red}{协方差值的具体大小没有意义}$
$\color{red}{协方差值对数据的波动（方差）较为敏感}$

二、pearson相关系数---协方差的替代指标

当数据波动变大后，数据的协方差也会变大，但是我们想用一个不会受数据波动影响的系数来反映数据之间的相关性。那么最简单的办法就是把这个波动给去除掉就好，我们可以通过除以数据的SD（波动程度值）来去除，这样就得到了我们的pearson相关系数的计算公式：

翻译一下：就是用X、Y的协方差除以X的标准差和Y的标准差。

为什么要除以SD（标准差）:假设有一组数据

X1:1,2,3,4,5
Y1:1,2,3,4,5

根据协方差公式，可以计算出两个变量的协方差为2，SD分别为2，2
根据pearson相关系数的计算公式：相关系数为1

现在将X1,Y1同时扩大2倍

X1:2，4，6，8，10
Y1:2，4，6，8，10

根据协方差公式，可以计算出两个变量的协方差为8，SD分别为2，2。根据pearson相关系数的计算公式：相关系数为1。可以看出，当数据扩大2倍的是时候，协方差与标准差都发生了变化，但相关系数并没有发生改变。

三、协方差与相关系数的关系

「相同点」：二者符号的正负代表两变量变化趋势是同向还是反向；
「差异点」：相关系数的取值与数据的scale无关，不论数据的多少，只要数据完全在同一条直线上（陡峭或者平缓），相关系数就为1或者 -1；而协方差取值对数据的scale敏感。这个原因使得协方差本身的意义难以阐释。皮尔森相关性系数是协方差与标准差的比值。

使用R语言对相关系数的计算

假设我们有一组数据，每一列代表一个样本，每一行代表一个基因在不同样本中的表达量

> head(a,3)#查看数据
                X1_untreated X2_untreated X3_untreated X4_untreated    X1_Dex
ENSG00000223972    -2.089725    -2.090478    -2.090475    -2.089265 -2.079351
ENSG00000227232     6.760110     6.892673     6.346646     6.739761  6.450597
ENSG00000243485     0.000000     0.000000     0.000000     0.000000  0.000000
                   X2_Dex    X3_Dex    X4_Dex
ENSG00000223972 -2.087724 -2.091304 -2.089408
ENSG00000227232  6.749787  6.623112  6.524621
ENSG00000243485  0.000000  0.000000  0.000000
> cor_a = cor(a)  #使用cor函数计算相关性
> cor_a查看相关系数

Pearson（皮尔逊）相关系数与Spearman Rank（斯皮尔曼等级）相关系数区别

斯皮尔曼相关性系数，通常也叫斯皮尔曼秩相关系数，这是一种无参数（与分布无关）检验方法，要求数据具有同升或同降变化趋势，但明显不具有线性相关关系。

“秩”，可以理解成就是一种顺序或者排序，那么它就是根据原始数据的排序位置进行求解，这种表征形式就没有了求皮尔森相关性系数时那些限制。

也就是说，我们不用管X和Y这两个变量具体的值到底差了多少，只需要算一下它们每个值所处的排列位置的差值，就可以求出相关性系数了。

另外，即使出现异常值，由于异常值的秩次通常不会有明显的变化（比如过大或者过小，那要么排第一，要么排最后），所以对斯皮尔曼相关性系数的影响也非常小！

用“秩”的概念，一方面可以解决异常值的问题，但是有好就有坏，这在另外一方面，也说明，这种方法的检验效力没有pearson相关系数强，因为它忽略了相关性的具体大小，而只保留了大小关系。

转自：https://www.jianshu.com/p/cf035ab626ac

最后编辑于：2023.02.19 17:32:27

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,457评论 5赞 459
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,837评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,696评论 0赞 319
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,183评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,057评论 4赞 355
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,105评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,520评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,211评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,482评论 1赞 290
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,574评论 2赞 309
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,353评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,213评论 3赞 312
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,576评论 3赞 298
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,897评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,174评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,489评论 2赞 341
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,683评论 2赞 335

统计学 |（2）协方差和相关系数

统计学 |（2）协方差和相关系数

一、协方差（Covariance）

1. 三类关系趋势

2. 引入协方差来描述三类关系趋势

3.协方差缺点：对数据的scale敏感

4.小结：

二、pearson相关系数---协方差的替代指标

相关系数的特性

小结

注意点：

三、协方差与相关系数的关系

使用R语言对相关系数的计算

Pearson（皮尔逊）相关系数与Spearman Rank（斯皮尔曼等级）相关系数区别

推荐阅读更多精彩内容