Empirical Likelihood(经验似然)预备知识

非参数统计推断与参数统计推断

非参数统计推断又称非参数检验。是指在不考虑原总体分布或者不做关于参数假定的前提下,尽量从数据或样本本身获得所需要的信息,通过估计获得分布的结构,并逐步建立对事物的数学描述和统计模型的方式。

非参数统计推断通常称为“分布自由”的方法,即非参数数据分析方法对产生数据的总体分布不做假设,或者仅给出很一般的假设,例如连续型分布,对称分布等一些简单的假设。结果一般有较好的稳定性。

  • 当数据的分布不是很明确,特别是样本容量不大,几乎无法对分布作出推断的时候,可以考虑用非参数统计推断的方法。
  • 当处理定性数据时,采用非参数统计推断方法
  • 参数统计一般用来处理定量数据。但是如果收集到的数据不符合参数模型的假定,比如数据只有顺序没有大小,则很多参数模型都无能为力,此时只能尝试非参数统计推断。

补充: 统计数据按照数据类型可以分为两类:定性数据和定量数据。非参数统计推断可以处理所有的类型的数据。

Note:非参数方法是与总体分布无关,而不是与所有分布无关。

经验似然

经验似然是Owen(1988)在完全样本下提出的一种非参数统计推断方法。它有类似于bootstrap的抽样特性。

Bootstrap是重新改变统计学的一个想法。统计推断的主体总是一个的随机变量分布。在这个分布很复杂无法假设合理的参数模型时,bootstrap提供了一种非参数的推断方法,依靠的是对观测到的样本的重新抽样(resampling),其实是用empirical distribution去近似真正的distribution。Source
Example:
你要统计你们小区里男女比例,可是你全部知道整个小区的人分别是男还是女很麻烦对吧。于是你搬了个板凳坐在小区门口,花了十五分钟去数,准备了200张小纸条,有一个男的走过去,你就拿出一个小纸条写上“M”,有一个女的过去你就写一个“S”。最后你回家以后把200张纸条放在茶几上,随机拿出其中的100张,看看几个M,几个S,你一定觉得这并不能代表整个小区对不对。然后你把这些放回到200张纸条里,再随即抽100张,再做一次统计。…………
如此反复10次或者更多次,大约就能代表你们整个小区的男女比例了。你还是觉得不准?没办法,就是因为不能知道准确的样本,所以拿Bootstrap来做模拟而已。Source
语言描述
Bootstrap是我们在对一个样本未知的情况下,从中(有放回的)重新抽样,抽样样本大小为n,那么每一次抽样都可以得到一个样本均值,不断地抽样就可以得到一个\bar{x}的分布,接下来就可以构造置信区间并做检验了。

经验似然方法与经典的或现代的统计方法相比,有很多突出的优点:

  • 构造的置信区间有域保持性,变换不变性
  • 置信域的形状由数据自行决定
  • 有Bartlett纠偏性
  • 无需构造轴统计量

解析先验概率,后验概率与似然函数
用“瓜熟蒂落”这个因果例子,从概率(probability)的角度说一下。
先验概率,就是常识、经验所透露出的“因”的概率,即瓜熟的概率。
后验概率,就是在知道“果”之后,去推测“因”的概率,也就是说,如果已经知道瓜蒂脱落,那么瓜熟的概率是多少。后验和先验的关系可以通过贝叶斯公式来求。也就是:
P(瓜熟 | 已知蒂落)=P(瓜熟)×P(蒂落 | 瓜熟)/ P(蒂落)
似然函数,是根据已知结果去推测固有性质的可能性(likelihood),是对固有性质的拟合程度,所以不能称为概率。在这里就是说,不要管什么瓜熟的概率,只care瓜熟与蒂落的关系。如果蒂落了,那么对瓜熟这一属性的拟合程度有多大。似然函数,一般写成L(瓜熟 | 已知蒂落),和后验概率非常像,区别在于似然函数把瓜熟看成一个肯定存在的属性,而后验概率把瓜熟看成一个随机变量
似然函数和条件概率的关系
似然函数就是条件概率的逆反。意为:
L(瓜熟 | 已知蒂落)= C × P(蒂落 | 瓜熟),C是常数。
具体来说,现在有1000个瓜熟了,落了800个,那条件概率是0.8。那我也可以说,这1000个瓜都熟的可能性是0.8C。注意,之所以加个常数项,是因为似然函数的具体值没有意义,只有看它的相对大小或者两个似然值的比率才有意义。
同理,如果理解上面的意义,分布就是一“串”概率。
先验分布:现在常识不但告诉我们瓜熟的概率,也说明了瓜青、瓜烂的概率。
后验分布:在知道蒂落之后,瓜青、瓜熟、瓜烂的概率都是多少
似然函数:在知道蒂落的情形下,如果以瓜青为必然属性,它的可能性是多少?如果以瓜熟为必然属性,它的可能性是多少?如果以瓜烂为必然属性,它的可能性是多少?似然函数不是分布,只是对上述三种情形下各自的可能性描述。
那么我们把这三者结合起来,就可以得到:
后验分布 正比于 先验分布 × 似然函数。
先验就是设定一种情形,似然就是看这种情形下发生的可能性,两者合起来就是后验的概率。
至于似然估计:就是不管先验和后验那一套,只看似然函数,现在蒂落了,可能有瓜青、瓜熟、瓜烂,这三种情况都有个似然值(L(瓜青):0.6、L(瓜熟):0.8、L(瓜烂):0.7),我们采用最大的那个,即瓜熟,这个时候假定瓜熟为必然属性是最有可能的。 Source

经验似然的推广与应用
  • 线性回归模型的统计推断(Owen,1988)
  • 广义线性模型(Kolaczyk,1994)
  • 部分线性模型(Wang&Jing,1999)
  • 非参数回归(Chen&Qin,2000)
  • 偏度抽样模型(Qin,1993)
  • 投影寻踪回归(Owen,1992)
  • 分为回归及M-泛函的统计推断(Zhang,1997)
  • 自回归模型(Chuang&Chan,2002)

近几年统计学家将经验似然方法应用到不完全数据的统计分析,发展了被估计的经验似然,调整经验似然及Bootstrap经验似然。

实践中数据通常是不完全的,主要表现是

  • 数据被随机删失
  • 数据测量有误
  • 数据missing
什么是经验似然?

经验似然比渐近于卡方分布(Asymptotic Chi-Square)。

解析概率质量函数,概率密度函数,累积分布函数

  • 概率质量函数 (probability mass function,PMF) 是离散随机变量在各特定取值上的概率。
  • 概率密度函数(probability density function,PDF)是对连续随机变量定义的,本身不是概率,只有对连续随机变量的取值进行积分后才是概率。
  • 不管是什么类型的随机变量,都可以定义它的累积分布函数(cumulative distribution function,CDF)。累积分布函数能完整描述一个实数随机变量X的概率分布,是概率密度函数的积分。也就是说,CDF就是PDF的积分,PDF就是CDF的导数。公式参考这里

经验分布函数
参考博客

格利文科定理

符号补充:
sup表示一个集合中的上确界,就是说任何属于该集合的元素都小于等于该值。但是不一定有某个元素就正好等于sup的值,只能说明该集合有上界,这是它和max的区别,一般用在无限集中比较多。相对应的下确界用inf表示。
泛函数符号:
泛函数符号

希尔伯特空间的理解
总结:Source
(线性空间 + 范数 = 赋范空间 + 线性结构) + 内积
=
内积空间 + 完备性
=
希尔伯特空间。
解析:
从数学的本质来看,最基本的集合有两类:线性空间(有线性结构的集合)、度量空间距离空间,有度量结构的集合)。对线性空间而言,主要研究集合的描述,直观地说就是如何清楚地告诉地别人这个集合是什么样子。为了描述清楚,就引入了基(相当于三维空间中的坐标系)的概念,所以对于一个线性空间来说,只要知道其基即可,集合中的元素只要知道其在给定基下的坐标即可。但线性空间中的元素没有“长度”(相当于三维空间中线段的长度),为了量化线性空间中的元素,所以又在线性空间引入特殊的“长度”,即范数。赋予了范数的线性空间即称为赋范线性空间。但赋范线性空间中两个元素之间没有角度的概念,为了解决该问题,所以在线性空间中又引入了内积的概念。因为有度量,所以可以在度量空间、赋范线性空间以及内积空间中引入极限,但抽象空间中的极限与实数上的极限有一个很大的不同就是,极限点可能不在原来给定的集合中,所以又引入了完备的概念,完备的内积空间就称为Hilbert空间
这几个空间之间的关系是:线性空间与度量空间是两个不同的概念,没有交集。赋范线性空间就是赋予了范数的线性空间,也是度量空间(具有线性结构的度量空间),内积空间是赋范线性空间,希尔伯特空间就是完备的内积空间。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343

推荐阅读更多精彩内容