Hoeffding不等式的认识以及泛化误差上界的证明

参考书目和论文：《统计学习方法》

A Tutorial on Support Vector Machine for Pattern Recognition

在机器学习中我们知道学习方法的泛化能力往往是通过研究泛化误差的概率上界所进行的，这个就简称为泛化误差上界。用直观的理解，在有限的训练数据中得到一个规律，认为总体也是近似这个规律的，那么就能用这个规律进行预测。比如一个大罐子里装满了红球和白球，各一半，我随手抓了一把，然后根据这些红球白球的比例预测整个罐子也是这样的比例，这样做不一定很准确，但结果总是近似的，而且如果抓出的球越多，预测结果也就越可信。具体来说就是通过比较两种学习方法的误差上界来比较他们的优劣。现在根据李航博士在《统计学习方法》中的例子，我来自己证明下泛化误差上界。毕竟自己学会推导才是自己的，看的懂的反而不一定。

1：二分类问题的泛化误差上界

考虑到二分类问题。现在假设给定一组训练数据集合T。这组数据集时从联合概率分布P(x，y)独立同时分布产生的。现在假设这个小空间是一个函数的有限集F={f1,f2,...,fd}，d是函数个数。设f是从F中选取的函数。现在的损失函数我们定义为0-1损失。

这样关于f的期望损失和经验损失分别是：

对于f（n）的泛化能力：

现在对F中有限集合中任意选出函数f的泛化误差上界：

泛化误差上界定理：假设当前空间是有限个函数的集合，对任意一个函数f∈F，至少以概率1−σ，以下的不等式成立：

不等式左端R(f)是泛化误差，右端为泛化误差上界。泛化误差上界中，第一项是训练误差，训练误差越小，泛化误差也越小。第二项ε(d,N,δ)，N越大，值越小，假设空间F包含的函数越多，值越大。这个定理可以从概率上说明使用经验风险近似期望风险的可信度，它与样本数量以及假设空间的复杂度有关。这个定理可以从概率上说明使用经验风险近似期望风险的可信度，它与样本数量以及假设空间的复杂度有关。

上述的定理可以用Hoeffding不等式来证明：

对于Hoeffding定理的一些理解：

Hoeffding不等式是关于一组随机变量均值的概率不等式。如果X1,X2,⋯,Xn为一组独立同分布的参数为p的伯努利分布随机变量，n为随机变量的个数。定义这组随机变量的均值为：

对于任意δ>0, Hoeffding不等式可以表示为：

图片发自简书App

在《统计机器学习》中的Hoeffding的公式为如下所示，好像有很多的版本。

令X1,…,Xn为独立同分布随机变量，满足ai≤Xi≤bi。则对于任意t>0有

至于这个公式怎么推导，其实我也不会，建议大家还是不要为难自己了。哈哈

而这个公式的用途：

在统计推断中，我们可以利用样本的统计量(statistic)来推断总体的参数(parameter)，譬如使用样本均值来估计总体期望。如下图所示，我们从罐子里抽球，希望估计罐子里不同颜色球的比例。

直觉上，如果我们有更多的样本(抽出更多的球)，则样本期望ν应该越来越接近总体期望μ。事实上，这里可以用hoeffding不等式表示如下：

从hoeffding不等式可以看出，当n逐渐变大时，不等式的UpperBound越来越接近0，所以样本期望越来越接近总体期望。

回到我们的泛化误差上界的推导中：

对任意函数f∈F，R^(f) 是N个独立随机变L(Y,f(X))的样本均值（经验期望），R(f)是期望，如果损失函数取之区间为[0, 1]，则根据上述Hoeffding不等式，得到：

由于F={f1,f2,...,fd}是一个有限集合，容易得到：

令

然后就得到了：

上面的讨论只是假设空间包含有限个函数的情况下的泛化误差上界，对于一般的假设空间要找到泛化误差界应该就没这么简单了。

不足之处还请各位多多指教！欢迎大家提出建议，我将很珍惜大家的看法。谢谢！

最后编辑于：2017.12.06 02:21:46

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,053评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,527评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,779评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,685评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,699评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,609评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,989评论 3赞 396
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,654评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,890评论 1赞 298
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,634评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,716评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,394评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,976评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,950评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,191评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,849评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,458评论 2赞 342

Hoeffding不等式的认识以及泛化误差上界的证明

推荐阅读更多精彩内容