Empirical Likelihood（经验似然）预备知识

非参数统计推断与参数统计推断

非参数统计推断又称非参数检验。是指在不考虑原总体分布或者不做关于参数假定的前提下，尽量从数据或样本本身获得所需要的信息，通过估计获得分布的结构，并逐步建立对事物的数学描述和统计模型的方式。

非参数统计推断通常称为“分布自由”的方法，即非参数数据分析方法对产生数据的总体分布不做假设，或者仅给出很一般的假设，例如连续型分布，对称分布等一些简单的假设。结果一般有较好的稳定性。

当数据的分布不是很明确，特别是样本容量不大，几乎无法对分布作出推断的时候，可以考虑用非参数统计推断的方法。

当处理定性数据时，采用非参数统计推断方法

参数统计一般用来处理定量数据。但是如果收集到的数据不符合参数模型的假定，比如数据只有顺序没有大小，则很多参数模型都无能为力，此时只能尝试非参数统计推断。

补充: 统计数据按照数据类型可以分为两类：定性数据和定量数据。非参数统计推断可以处理所有的类型的数据。

Note：非参数方法是与总体分布无关，而不是与所有分布无关。

经验似然

经验似然是Owen（1988）在完全样本下提出的一种非参数统计推断方法。它有类似于bootstrap的抽样特性。

Bootstrap是重新改变统计学的一个想法。统计推断的主体总是一个的随机变量分布。在这个分布很复杂无法假设合理的参数模型时，bootstrap提供了一种非参数的推断方法，依靠的是对观测到的样本的重新抽样（resampling），其实是用empirical distribution去近似真正的distribution。Source
Example:
你要统计你们小区里男女比例，可是你全部知道整个小区的人分别是男还是女很麻烦对吧。于是你搬了个板凳坐在小区门口，花了十五分钟去数，准备了200张小纸条，有一个男的走过去，你就拿出一个小纸条写上“M”，有一个女的过去你就写一个“S”。最后你回家以后把200张纸条放在茶几上，随机拿出其中的100张，看看几个M，几个S，你一定觉得这并不能代表整个小区对不对。然后你把这些放回到200张纸条里，再随即抽100张，再做一次统计。…………
如此反复10次或者更多次，大约就能代表你们整个小区的男女比例了。你还是觉得不准？没办法，就是因为不能知道准确的样本，所以拿Bootstrap来做模拟而已。Source
语言描述：
Bootstrap是我们在对一个样本未知的情况下，从中（有放回的）重新抽样，抽样样本大小为n，那么每一次抽样都可以得到一个样本均值，不断地抽样就可以得到一个\bar{x}的分布，接下来就可以构造置信区间并做检验了。

经验似然方法与经典的或现代的统计方法相比，有很多突出的优点：

构造的置信区间有域保持性，变换不变性
置信域的形状由数据自行决定
有Bartlett纠偏性
无需构造轴统计量

解析先验概率，后验概率与似然函数
用“瓜熟蒂落”这个因果例子，从概率（probability）的角度说一下。
先验概率，就是常识、经验所透露出的“因”的概率，即瓜熟的概率。
后验概率，就是在知道“果”之后，去推测“因”的概率，也就是说，如果已经知道瓜蒂脱落，那么瓜熟的概率是多少。后验和先验的关系可以通过贝叶斯公式来求。也就是：
P（瓜熟 | 已知蒂落）=P（瓜熟）×P（蒂落 | 瓜熟）/ P（蒂落）
似然函数，是根据已知结果去推测固有性质的可能性（likelihood），是对固有性质的拟合程度，所以不能称为概率。在这里就是说，不要管什么瓜熟的概率，只care瓜熟与蒂落的关系。如果蒂落了，那么对瓜熟这一属性的拟合程度有多大。似然函数，一般写成L（瓜熟 | 已知蒂落），和后验概率非常像，区别在于似然函数把瓜熟看成一个肯定存在的属性，而后验概率把瓜熟看成一个随机变量。
似然函数和条件概率的关系
似然函数就是条件概率的逆反。意为：
L（瓜熟 | 已知蒂落）= C × P（蒂落 | 瓜熟），C是常数。
具体来说，现在有1000个瓜熟了，落了800个，那条件概率是0.8。那我也可以说，这1000个瓜都熟的可能性是0.8C。注意，之所以加个常数项，是因为似然函数的具体值没有意义，只有看它的相对大小或者两个似然值的比率才有意义。
同理，如果理解上面的意义，分布就是一“串”概率。
先验分布：现在常识不但告诉我们瓜熟的概率，也说明了瓜青、瓜烂的概率。
后验分布：在知道蒂落之后，瓜青、瓜熟、瓜烂的概率都是多少
似然函数：在知道蒂落的情形下，如果以瓜青为必然属性，它的可能性是多少？如果以瓜熟为必然属性，它的可能性是多少？如果以瓜烂为必然属性，它的可能性是多少？似然函数不是分布，只是对上述三种情形下各自的可能性描述。
那么我们把这三者结合起来，就可以得到：
后验分布正比于先验分布 × 似然函数。
先验就是设定一种情形，似然就是看这种情形下发生的可能性，两者合起来就是后验的概率。
至于似然估计：就是不管先验和后验那一套，只看似然函数，现在蒂落了，可能有瓜青、瓜熟、瓜烂，这三种情况都有个似然值（L（瓜青）：0.6、L（瓜熟）：0.8、L（瓜烂）：0.7），我们采用最大的那个，即瓜熟，这个时候假定瓜熟为必然属性是最有可能的。 Source

经验似然的推广与应用

线性回归模型的统计推断（Owen，1988）
广义线性模型（Kolaczyk，1994）
部分线性模型（Wang&Jing，1999）
非参数回归（Chen&Qin，2000）
偏度抽样模型（Qin，1993）
投影寻踪回归（Owen，1992）
分为回归及M-泛函的统计推断（Zhang，1997）
自回归模型（Chuang&Chan，2002）

近几年统计学家将经验似然方法应用到不完全数据的统计分析，发展了被估计的经验似然，调整经验似然及Bootstrap经验似然。

实践中数据通常是不完全的，主要表现是

数据被随机删失

数据测量有误

数据missing

什么是经验似然？

经验似然比渐近于卡方分布（Asymptotic Chi-Square）。

解析概率质量函数，概率密度函数，累积分布函数

概率质量函数 (probability mass function，PMF) 是离散随机变量在各特定取值上的概率。

概率密度函数（probability density function，PDF）是对连续随机变量定义的，本身不是概率，只有对连续随机变量的取值进行积分后才是概率。

不管是什么类型的随机变量，都可以定义它的累积分布函数（cumulative distribution function，CDF）。累积分布函数能完整描述一个实数随机变量X的概率分布，是概率密度函数的积分。也就是说，CDF就是PDF的积分，PDF就是CDF的导数。公式参考这里

经验分布函数
参考博客

格利文科定理

符号补充：
sup表示一个集合中的上确界，就是说任何属于该集合的元素都小于等于该值。但是不一定有某个元素就正好等于sup的值，只能说明该集合有上界，这是它和max的区别，一般用在无限集中比较多。相对应的下确界用inf表示。
泛函数符号：

泛函数符号

希尔伯特空间的理解
总结：Source
（线性空间 + 范数 = 赋范空间 + 线性结构） + 内积
=
内积空间 + 完备性
=
希尔伯特空间。
解析：
从数学的本质来看，最基本的集合有两类：线性空间（有线性结构的集合）、度量空间（距离空间，有度量结构的集合）。对线性空间而言，主要研究集合的描述，直观地说就是如何清楚地告诉地别人这个集合是什么样子。为了描述清楚，就引入了基（相当于三维空间中的坐标系）的概念，所以对于一个线性空间来说，只要知道其基即可，集合中的元素只要知道其在给定基下的坐标即可。但线性空间中的元素没有“长度”（相当于三维空间中线段的长度），为了量化线性空间中的元素，所以又在线性空间引入特殊的“长度”，即范数。赋予了范数的线性空间即称为赋范线性空间。但赋范线性空间中两个元素之间没有角度的概念，为了解决该问题，所以在线性空间中又引入了内积的概念。因为有度量，所以可以在度量空间、赋范线性空间以及内积空间中引入极限，但抽象空间中的极限与实数上的极限有一个很大的不同就是，极限点可能不在原来给定的集合中，所以又引入了完备的概念，完备的内积空间就称为Hilbert空间。
这几个空间之间的关系是：线性空间与度量空间是两个不同的概念，没有交集。赋范线性空间就是赋予了范数的线性空间，也是度量空间（具有线性结构的度量空间），内积空间是赋范线性空间，希尔伯特空间就是完备的内积空间。

最后编辑于：2017.12.06 20:27:21

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,732评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,496评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,264评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,807评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,806评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,675评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,029评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,683评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 41,704评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,666评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,773评论 1赞 332
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,413评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,016评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,978评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,204评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,083评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,503评论 2赞 343

Empirical Likelihood（经验似然）预备知识

非参数统计推断与参数统计推断

经验似然

经验似然的推广与应用

什么是经验似然？

推荐阅读更多精彩内容