前面介绍的随机变量的分布律、分布函数和概率密度函数都能完整地描述随机变量。但在某些实际问题中,更关心一些描述随机变量的常数。本章介绍这些常数。对于单个随机变量(一维随机变量或多维随机变量中的某个),有k阶原点矩和k阶中心矩。其中重点介绍的有1阶原点矩(期望)和2阶中心矩(方差)。对于二维随机变量X和Y,有k+l阶混合矩和k+l阶混合中心矩。其中重点介绍了2阶混合中心矩中的协方差。二维随机变量有4种2阶混合中心矩,组成了协方差矩阵,这是一个对称的矩阵。由此推广到n维随机变量的情况,n维随机变量的2阶混合中心矩共有个,组成的协方差矩阵,可以解决n维随机变量分布函数过于复杂不方便处理的问题。另外,由二维随机变量协方差适当变形得到的相关系数,引出了(线性)相关与独立的区别与联系的问题。本章还介绍了切比雪夫不等式,为下一章进行了铺垫。需要注意的是,本章介绍的随机变量的数字特征,是根据变量的分布得出的常数,常用来描述随机变量的某些特征或是在分布函数过于复杂的时候作简化的替代,因此对于随机变量的描述,这些数字远没有分布精确。
数学期望
数学期望是随机变量的1阶原点矩,简称期望,又称均值。它完全由随机变量的分布确定,若X服从某一分布,也称E(X)是这一分布的数学期望。
对于离散型随机变量,分布律为,若级数绝对收敛,则称该级数的和为随机变量X的期望。
对于连续性随机变量,概率密度函数为,若积分绝对收敛,则称该积分的值为随机变量X的期望。
存在随机变量不存在的情况,一般来说若级数或积分不绝对收敛,该随机变量不存在期望。
设Y是随机变量X的函数:
如果X是分布律为的离散型随机变量,若绝对收敛,则该级数和为Y的期望。
如果X是概率密度函数为的连续型随机变量,若绝对收敛,则该积分值为Y的期望。
数学期望具有以下性质:
设为常数,则.
设为一个随机变量,是常数,则.
设是两个随机变量,则,可以推广到任意有限个随机变量之和情况。( 没有相互独立的要求)
设是两个相互独立的随机变量,则,可以推广到任意有限个相互独立的随机变量之积情况。
方差
方差用来度量随机变量与其期望的偏离程度,设X是一个随机变量,若存在,则称该项为随机变量的方差,记为或。在应用上还引入了,记为,称为标准差或均方差。当且仅当。
方差具有以下性质:
设是常数,则。
设为随机变量,为常数,则,。
设为两个随机变量,则,若相互独立,则
常见分布的期望与方差
(0-1)分布,,:
参数为的二项分布:
参数为的泊松分布:
参数为的均匀分布:
参数为的指数分布():
参数为的正态分布:
几何分布,设成功的概率为p:
负二项分布,设成功的概率为p,要求成功的次数为r:
标准化变量
对任意随机变量X,若存在期望和方差,作,称为的标准化变量。。对变量进行标准化在机器学习数据预处理有应用,使问题容易处理。
切比雪夫不等式
设随机变量具有数学期望,方差,则对于任意正数,有不等式
成立。该不等式就是切比雪夫不等式。
切比雪夫不等式的意义是,随机变量的分布未知,只知道期望和方差时,能够估计的概率。这种估计非常粗略,如果知道分布的话可以计算出概率的准确值。
线性相关与相互独立
介绍方差性质的时候,有一条:,若随即变量相互独立,则。
现在引入一个新的概念,协方差。协方差是用来解释两个随机变量在变化时是同向变化还是异向变化,同向变化协方差为正,异向变化协方差为负,数值越大说明变化相似度越高。
关于协方差的性质:
协方差是无量纲的,为了剔除量纲的影响,引入了相关系数。相关系数是在协方差的基础上除以两个随机变量的标准差,这样就把协方差的数值标准化到区间内,使人们能够更多地关注两个随机变量变化相似程度,而不是变化幅度大小。当相关系数等于,说明两个随机变量变化程度完全一致 ,你变大一倍我也变大(变小,若)一倍,是完全的线性关系。若相关系数等于0,则说明两个变量没有线性关系,可能存在其它关系,例如W型或圆圈型。因此相关系数是反映两个随机变量的线性关系程度。
生活中的情况,两个随机变量大多数不遵从严格的数学关系,比较的时候大多数是近似地看一下线性关系。例如可能遵从二次关系(两个随机变量取>0)、对数关系的两个随机变量,呈现同向变化的趋势,因此具有较强的线性关系。如果要具体看遵从什么关系,还是要从分布函数入手。
相关系数是从线性关系入手,粗略地对随机变量进行判断;相对独立是从分布入手,详细地比对。因此相对独立强度比相关系数高,从相对独立可以推出线性无关,但不能反推。
协方差、相关系数的意义详细推导见下文:如何通俗易懂地解释「协方差」与「相关系数」的概念?
矩和协方差矩阵
矩是随机变量的数字特征。设为随机变量,若以下期望存在,则:
称为的k阶原点矩,简称k阶矩。
称为的k阶中心矩。
称为和的k+l阶混合矩。
称为和的k+l阶混合中心矩。
由此可见,期望是1阶矩,方差是2阶中心矩,协方差是2阶混合中心矩。
2维随机变量存在4个2阶混合中心矩,n维随机变量存在个2阶混合中心矩,可以组成一个对称的n阶矩阵,称为协方差矩阵。n维随机变量分布函数很复杂或不知道的情况下,协方差矩阵可以处理相关问题。
N维正态随机变量
n维正态分布是现实中经常遇到的模型。n维正态随机变量具有下面的性质:
对于正态分布来说,线性不相关和相对独立可以看作等价。