指变量X的方差。另外这里不去考虑样本总体的区别,假定我们直接考虑的就是一组数据的方差
小学的时候我们就知道直角三角形的三个边有:,但是为什么两个独立变量X和Y的方差也会有这种关系呢?
首先,借助勾股定理作为一个提示去记忆X+Y的和的方差已经是不错的一种方式了。当然,推导也不是特别复杂,见下方:
鉴于连续型变量的证明需要用到积分,我们就略过吧,用离散变量意思意思就好。
Var(X)公式的变化
首先关于方差的公式,我们一般是这么写的
而实际上就是X取各个x值的概率。所以上式也可以写成下面的形式
, 其中是X取x值的概率。
另外,因为
其中, , ,所以有
于是有:
Var(X)到Var(X+Y)
然后呢,现在把X替换为X+Y试试:
E(X+Y)=E(X)+E(Y)
好的,由于, well..., 为什么呢?
因为对于求和运算里的加号,可以拆分:
其中是的概率。是的概率
回到方差的计算, 将加进去
重新排列一下
E(XY)和E(X)E(Y)
当X和Y相互独立的时候,我们有X和Y同时发生的概率,而关于E(XY)有:
回到方差的式子:
由于当X和Y相互独立的时候有,因此上式可以得到:
其实也就是X和Y之间的协方差,所以X+Y方差的一般形式其实是
当然了,对于X-Y也有
但是在X和Y相互独立的时候呢,两者的协方差为0,所以
从上面可以有一个大致的感觉:协方差是表示X和Y之间的关联的一个量。实际上X和Y的关联系数r的公式也就是: