协方差的定义
在统计学上,协方差用来刻画两个随机变量之间的相关性,反映的是变量之间的二阶统计特性,两个随机变量Xi和Yj的协方差定义为
所以
协方差矩阵
是一个矩阵,其 i, j 位置的元素是第 i 个与第 j 个随机向量(即随机变量构成的向量)之间的协方差。
设X1,X2,...,Xn为一组随机变量,记X=(X1,X2,...,Xn)T为由这n个随机变量构成的随机向量,假设每个随机变量有m个样本,将所有的样本拼接在一起可以得到如下的样本矩阵
协方差矩阵是计算不同维度间的协方差,要时刻牢记这一点。因此样本矩阵的每行是一个样本,每列为一个维度,所以我们要按列计算均值。但是peghoty博客中用的是矩阵第i行元素表示第i个随机变量Xi的m个样本,所以以下分析暂时用的peghoty的方案。
引入向量αi和βi
αi是样本矩阵的行向量,βi是样本矩阵的列向量,所以样本矩阵表示为
对于n维的随机变量X=(X1,X2,…,Xn)T的协方差矩阵定义为
所以协方差矩阵必定是一个对称矩阵
协方差矩阵中的对角线元素表示方差,非对角线元素表示随机向量X的不同随机量之间的协方差,因此协方差矩阵可以作为刻画不同分量之间相关性的一个评判量,不同分量之间的相关性越小,则C的非对角线元素的值就越小,特别地,如果不同分量彼此不相关,那么C就变成一个对角阵。
注意:我们并不能得到协方差矩阵C的真实性,只能根据所提供的X的样本数据,对其进行近似估计,因此,这样计算得到的协方差矩阵是依赖于样本数据的,通常提供的样本数目越多(m越大),样本在总体中的覆盖面就越广,所得协方差矩阵就越可靠。
**协方差公式推导