1 期望、方差、标准差
概率论与数理统计中,最基本概念就是均值、方差、标准差,n个样本xi的集合X。
具体公式描述为:
均值
样本集合X的中间点
标准差
样本集合的各个样本点到均值的距离平方之和,描述了集合的离散程度,也即样本整体的离散幅度。
方差
标准差的平方
2 协方差
两个特征之间的相关关系。
均值、方差、标准差几个统计量只描述了一维数据,现实中数据通常都不是简单的一个特征能够描述,都是多个特征描述,而且不同特征之间会具有相关关系。例如一个理科学生的成绩在数学物理两方面上,就是两个特征,而且这两个特征是有相关关系的。
取很多学生构建成一个集合,统计发现如果数学越好,一般来说物理也就越好。从统计数据上看到, 数学 物理成绩之间具有相关关系
怎么描述?---用协方差描述
两个特征X Y,均值为X’ Y’。 如果样本的X高于均值, 一般Y也高于均值。相反如果X低于均值Y也低于均值,则用如下公式描述两个特征之间的相关关系:
1 在xi > x’, yi > y’时,结果 > 0
2 在xi > x’, yi < y’时,结果 < 0
3 在xi < x’, yi > y’时,结果 < 0
4 在xi < x’, yi < y’时,结果 > 0
如果统计集合所有样本的特征 xi yi 都是同时增减的话,那么1 4情况就多,cov(x, y)就会是> 0且相关性越大cov(x, y)越大。
相反如果xi yi 相反增减,那么2 3情况就多, cov(x, y)就会 < 0且逆相关性越大cov(x, y)越小。
而如果xi yi没有关系,那么随意发生1 2 3 4情况,那么cov的分子因为求和就会逐渐趋近0那么cov绝对值就越小
这样这个公式就描述了一个样本的特征之间的相关关系.
3 协方差矩阵
如果理科成绩还要看化学特征的关系那么就会有一个样本是x y z。而协方差能够描述的是两个特征之间的关系。想要描述两两之间关系,
Cov(i, j) = Cov(dimi, dimj)
形成一个矩阵。
描述n个特征两两之间的相关关系。 x-x x-y x-z y-z。
直接观察就发现,Cov 协方差矩阵一定是个对角矩阵。 cov(x, y) == cov(y, x)。
今天突然发现,原来协方差矩阵还可以这样计算,先让样本矩阵中心化,即每一维度减去该维度的均值,使每一维度上的均值为0,然后直接用新的到的样本矩阵乘上它的转置,然后除以(N-1)即可。其实这种方法也是由前面的公式推导而来,只不过理解起来不是很直观。
理解协方差矩阵的关键就在于牢记它计算的是一个样本的不同特征之间的协方差,而不是不同样本之间。
4 相关系数
相关系数= X Y的协方差/ (X标准差*Y标准差) 理解为归一化标准化后的特殊的协方差。
特点
1 反应两个特征的相关关系(同向逆向无关(貌似是线性关系))
2 由于是标准化的协方差,消除了两个变量变化幅度的影响,纯净的反应了两个变量的相关关系。
思考
如果数据集两个特征x y.
X是100sin(0 – 180)取其中五个点
Y是100sin(0 – 180)取其中五个点
(x1,y1) (x2,y2)(x3,y3) (x4,y4) (x5,y5)
这时两者的协方差为10000(未计算).相关性很大
而如果数据集两个特征x y.
X是100sin(0 – 180)取其中五个点
Y是1sin(0 – 180)取其中五个点
(x1,y1) (x2,y2)(x3,y3) (x4,y4) (x5,y5)
这时两者的协方差为1(未计算) .相关性很小
虽然协方差相差巨大,但是实际上两者单纯相关性来说是完全一样的,这时候如果除以自身幅值标准化一下,两者的值就是相等的。
这时相关系就登场了, COV(X,Y) / (X标准差*Y标准差) --- 纯净的相关性。
比较协方差与相关系数
协方差变化在正无穷到负无穷
相关系数变化在+1 -1.
如果相关系数= 1,表示完全正相关,X增大一倍Y也增大一倍。这就是线性相关。
参考
如何通俗易懂理解协方差与相关系数
https://www.zhihu.com/question/20852004
协方差的意义和计算公式
http://blog.csdn.net/beechina/article/details/51074750
�