非参数统计推断与参数统计推断
非参数统计推断又称非参数检验。是指在不考虑原总体分布或者不做关于参数假定的前提下,尽量从数据或样本本身获得所需要的信息,通过估计获得分布的结构,并逐步建立对事物的数学描述和统计模型的方式。
非参数统计推断通常称为“分布自由”的方法,即非参数数据分析方法对产生数据的总体分布不做假设,或者仅给出很一般的假设,例如连续型分布,对称分布等一些简单的假设。结果一般有较好的稳定性。
- 当数据的分布不是很明确,特别是样本容量不大,几乎无法对分布作出推断的时候,可以考虑用非参数统计推断的方法。
- 当处理定性数据时,采用非参数统计推断方法
- 参数统计一般用来处理定量数据。但是如果收集到的数据不符合参数模型的假定,比如数据只有顺序没有大小,则很多参数模型都无能为力,此时只能尝试非参数统计推断。
补充: 统计数据按照数据类型可以分为两类:定性数据和定量数据。非参数统计推断可以处理所有的类型的数据。
Note:非参数方法是与总体分布无关,而不是与所有分布无关。
经验似然
经验似然是Owen(1988)在完全样本下提出的一种非参数统计推断方法。它有类似于bootstrap的抽样特性。
Bootstrap是重新改变统计学的一个想法。统计推断的主体总是一个的随机变量分布。在这个分布很复杂无法假设合理的参数模型时,bootstrap提供了一种非参数的推断方法,依靠的是对观测到的样本的重新抽样(resampling),其实是用empirical distribution去近似真正的distribution。Source
Example:
你要统计你们小区里男女比例,可是你全部知道整个小区的人分别是男还是女很麻烦对吧。于是你搬了个板凳坐在小区门口,花了十五分钟去数,准备了200张小纸条,有一个男的走过去,你就拿出一个小纸条写上“M”,有一个女的过去你就写一个“S”。最后你回家以后把200张纸条放在茶几上,随机拿出其中的100张,看看几个M,几个S,你一定觉得这并不能代表整个小区对不对。然后你把这些放回到200张纸条里,再随即抽100张,再做一次统计。…………
如此反复10次或者更多次,大约就能代表你们整个小区的男女比例了。你还是觉得不准?没办法,就是因为不能知道准确的样本,所以拿Bootstrap来做模拟而已。Source
语言描述:
Bootstrap是我们在对一个样本未知的情况下,从中(有放回的)重新抽样,抽样样本大小为n,那么每一次抽样都可以得到一个样本均值,不断地抽样就可以得到一个\bar{x}的分布,接下来就可以构造置信区间并做检验了。
经验似然方法与经典的或现代的统计方法相比,有很多突出的优点:
- 构造的置信区间有域保持性,变换不变性
- 置信域的形状由数据自行决定
- 有Bartlett纠偏性
- 无需构造轴统计量
解析先验概率,后验概率与似然函数
用“瓜熟蒂落”这个因果例子,从概率(probability)的角度说一下。
先验概率,就是常识、经验所透露出的“因”的概率,即瓜熟的概率。
后验概率,就是在知道“果”之后,去推测“因”的概率,也就是说,如果已经知道瓜蒂脱落,那么瓜熟的概率是多少。后验和先验的关系可以通过贝叶斯公式来求。也就是:
P(瓜熟 | 已知蒂落)=P(瓜熟)×P(蒂落 | 瓜熟)/ P(蒂落)
似然函数,是根据已知结果去推测固有性质的可能性(likelihood),是对固有性质的拟合程度,所以不能称为概率。在这里就是说,不要管什么瓜熟的概率,只care瓜熟与蒂落的关系。如果蒂落了,那么对瓜熟这一属性的拟合程度有多大。似然函数,一般写成L(瓜熟 | 已知蒂落),和后验概率非常像,区别在于似然函数把瓜熟看成一个肯定存在的属性,而后验概率把瓜熟看成一个随机变量。
似然函数和条件概率的关系
似然函数就是条件概率的逆反。意为:
L(瓜熟 | 已知蒂落)= C × P(蒂落 | 瓜熟),C是常数。
具体来说,现在有1000个瓜熟了,落了800个,那条件概率是0.8。那我也可以说,这1000个瓜都熟的可能性是0.8C。注意,之所以加个常数项,是因为似然函数的具体值没有意义,只有看它的相对大小或者两个似然值的比率才有意义。
同理,如果理解上面的意义,分布就是一“串”概率。
先验分布:现在常识不但告诉我们瓜熟的概率,也说明了瓜青、瓜烂的概率。
后验分布:在知道蒂落之后,瓜青、瓜熟、瓜烂的概率都是多少
似然函数:在知道蒂落的情形下,如果以瓜青为必然属性,它的可能性是多少?如果以瓜熟为必然属性,它的可能性是多少?如果以瓜烂为必然属性,它的可能性是多少?似然函数不是分布,只是对上述三种情形下各自的可能性描述。
那么我们把这三者结合起来,就可以得到:
后验分布 正比于 先验分布 × 似然函数。
先验就是设定一种情形,似然就是看这种情形下发生的可能性,两者合起来就是后验的概率。
至于似然估计:就是不管先验和后验那一套,只看似然函数,现在蒂落了,可能有瓜青、瓜熟、瓜烂,这三种情况都有个似然值(L(瓜青):0.6、L(瓜熟):0.8、L(瓜烂):0.7),我们采用最大的那个,即瓜熟,这个时候假定瓜熟为必然属性是最有可能的。 Source
经验似然的推广与应用
- 线性回归模型的统计推断(Owen,1988)
- 广义线性模型(Kolaczyk,1994)
- 部分线性模型(Wang&Jing,1999)
- 非参数回归(Chen&Qin,2000)
- 偏度抽样模型(Qin,1993)
- 投影寻踪回归(Owen,1992)
- 分为回归及M-泛函的统计推断(Zhang,1997)
- 自回归模型(Chuang&Chan,2002)
近几年统计学家将经验似然方法应用到不完全数据的统计分析,发展了被估计的经验似然,调整经验似然及Bootstrap经验似然。
实践中数据通常是不完全的,主要表现是
- 数据被随机删失
- 数据测量有误
- 数据missing
什么是经验似然?
经验似然比渐近于卡方分布(Asymptotic Chi-Square)。
解析概率质量函数,概率密度函数,累积分布函数
- 概率质量函数 (probability mass function,PMF) 是离散随机变量在各特定取值上的概率。
- 概率密度函数(probability density function,PDF)是对连续随机变量定义的,本身不是概率,只有对连续随机变量的取值进行积分后才是概率。
- 不管是什么类型的随机变量,都可以定义它的累积分布函数(cumulative distribution function,CDF)。累积分布函数能完整描述一个实数随机变量X的概率分布,是概率密度函数的积分。也就是说,CDF就是PDF的积分,PDF就是CDF的导数。公式参考这里
经验分布函数
参考博客
符号补充:
sup表示一个集合中的上确界,就是说任何属于该集合的元素都小于等于该值。但是不一定有某个元素就正好等于sup的值,只能说明该集合有上界,这是它和max的区别,一般用在无限集中比较多。相对应的下确界用inf表示。
泛函数符号:
希尔伯特空间的理解
总结:Source
(线性空间 + 范数 = 赋范空间 + 线性结构) + 内积
=
内积空间 + 完备性
=
希尔伯特空间。
解析:
从数学的本质来看,最基本的集合有两类:线性空间(有线性结构的集合)、度量空间(距离空间,有度量结构的集合)。对线性空间而言,主要研究集合的描述,直观地说就是如何清楚地告诉地别人这个集合是什么样子。为了描述清楚,就引入了基(相当于三维空间中的坐标系)的概念,所以对于一个线性空间来说,只要知道其基即可,集合中的元素只要知道其在给定基下的坐标即可。但线性空间中的元素没有“长度”(相当于三维空间中线段的长度),为了量化线性空间中的元素,所以又在线性空间引入特殊的“长度”,即范数。赋予了范数的线性空间即称为赋范线性空间。但赋范线性空间中两个元素之间没有角度的概念,为了解决该问题,所以在线性空间中又引入了内积的概念。因为有度量,所以可以在度量空间、赋范线性空间以及内积空间中引入极限,但抽象空间中的极限与实数上的极限有一个很大的不同就是,极限点可能不在原来给定的集合中,所以又引入了完备的概念,完备的内积空间就称为Hilbert空间。
这几个空间之间的关系是:线性空间与度量空间是两个不同的概念,没有交集。赋范线性空间就是赋予了范数的线性空间,也是度量空间(具有线性结构的度量空间),内积空间是赋范线性空间,希尔伯特空间就是完备的内积空间。