连载 | 机器学习基石 Lec 7：VC Dimension 及其“哲学”含义

Lec 7：The VC Dimension

tips：符号含义主要参照lec 1，部分需要参照其他lec

上一节介绍了机器学习可行性的重要理论保障VC Bound，基于此，这节将介绍VC Dimension.

1、Definition of VC Dimension

上一节讲到上限函数B（N，k）的最高次项是k的N - 1次方。

这里将B（N，k）与k的N-1次方做部分比较：

可以看出N的k-1次方已经比B（N，k）大了，实际上我们可以用N的k-1次方bound住B（N，k），可以简化bound：

所以bad data的概率上限现在可以更加简化，不过，要加上上面的条件N≥2 && k≥3：

小summary: H存在k并且N足够大时，可以保证Eout ≈ Ein，所以这时候当A选择一个Ein小的h作为g就probably learned（当然也是需要一点luck的）！

下面进入本节的重点，先给出VC Dimension 的定义。很简单，VC Dimension就是最大的那个非break-point。

稍正式点的定义：表示为dvc(H)，为 largest N for which mH（N）= 2的N次方

vc dimension 是H的一个性质，还可以从下面两点看待，一是dvc就是H可以shatter的最大inputs数量；二是dvc = min（k） - 1.

结合上面的内容，成长函数的上限又可以表示为：

所以dvc有限就可以说H是good！有限的dvc就可以保障 Eout（g）≈ Ein（g）.

2、Perceptrons Revisited

已知2D的Perceptrons的dvc=3，当N足够大时，learning可行！那当更一般化的、更高维的PLA会怎样呢？

回顾一下，1D的PLA的dvc = 2；2D的PLA的dvc = 3. 猜测：dvc = d + 1？？？恩，猜对了，哈哈哈，这里先给出结论再给出证明。

证明这个结论可以从两方面证明：一方面dvc ≥ d + 1；一方面 dvc ≤ d + 1

1）dvc ≥ d + 1

这一条代表什么？就是可以找出能够被shatter的d + 1 个inputs .

这里用一组特别的input，用矩阵表示，此矩阵存在反矩阵；y也用矩阵表示，y表示任意的二元组合。能够shatter就表示对于任意的y都能得到sign（Xw）= y .显然可以，所以成立。

2）dvc ≤ d + 1

这一条代表对于“任意”d+2维的inputs都不能shatter.

先看简单的例子 2D PLA. x4 可以被x1 x2 x3的线性组合表示，所以x1 x2 x3的正负确定后，x4的正负也就确定了！下图中x4 必然是正的。这里基本可以得出一个结论：线性依赖（linear dependence）关系限制了dichotomy的最大kind数量！

更一般的情况，X矩阵有d+2个rows、d+1个columns.row＞col，所以会有线性依赖。前d+1个确定则d+2个自然就确定了，所以自然不能shatter！所以结论成立。

所以 dvc = d + 1.线性依赖限制了dichotomy的kind数量~

3、Degree of Freedom

dvc = d + 1，d是perceptron的维度，每个w对应一个h，w =（w0,w2,w3，...，wd），dvc代表的是有效的binary分类的自由度（就像调节按钮的调节范围）。自由度也代表了H的powerfulness（就是H能够做多少事情）。

在实际中，通常dvc ≈ 可以调节的参数的个数（but not always）

回想一下关于M的trade off，现在同样dvc有一样的问题（这是自然的，因为我们千辛万苦用N的dvc次方取代了M）：

所以，使用合适大小的dvc是很重要的。

这一节的fun time有点意思，这里提一下：

答案是2.这里林老师的目的并不是让我们去证明，而是这样理解：w0已经固定，则可以调节的自由度就少了1个，则dvc是d +１－１．

4、进一步了解dvc的意义

回顾一下vc bound

vc bound限制了发生bad data 的概率，则good 的概率是 1 - δ。good即|Ein（g）- Eout（g）|≤ ε.经过下面的计算可以得到ε的表达式。

见下图，所以，Eout和Ein的差异的大小与dvc是有关的。gen是generalization的缩写。我们通常只需要关注右侧的bound就好了，左侧灰色在此可忽略。dvc大自由度高，但是需要付出更大的代价 ε. 右侧用Ω（N，H，δ）表示，称为model complexity（模型复杂度），这里的model可以理解为H.

根据上图中Eout和Ein的关系，我们要给出一个非常非常重要的图！！！

dvc ↑：Ein ↓（有更多机会找到好的g）；但是Ω ↑ ；

dvc ↓：Ω ↓ ，但是 Ein ↑

通常最好的dvc在中间位置。

从这张图可以看出H并不是越powerful越好的！（太powerful就会overfiting，后面章节介绍）

之前我们只是想着把Ein变小，其实我们还要考虑需要付出的代价！

一直说需要足够多的data，那N是多少合适呢？根据vc bound 式子以及需求大致可以计算出需要的N的大小。理论上，我们需要 N = 10000 * dvc，太多了太难找到这么多data了。实际中 10 * dvc的data often enough ！

why？

因为vc bound 很宽松（looseness），宽松的来源是什么？四点：

1）霍夫丁对任意分布的data以及f都适用；

2）mH（N）成长函数是采样出的any data 对应的dichotomy的最大值；

3）用N的dvc次方是成长函数的上限的上限的上限，我们只用一个值dvc去计算上限，可以忽略H的细节；

4）union bound是考虑了最坏的情况；

其实一路推导都很宽松，所以理论和实际差了很多。

讲了这么多，其实最重要的并不是它的理论部分，而是明白vc bound里面的“哲学”（都在最后一张图里了）。

最后编辑于：2017.12.04 06:48:59

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,547评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,399评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,428评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,599评论 1赞 274
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,612评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,577评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,941评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,603评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,852评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,605评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,693评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,375评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,955评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,936评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,172评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,970评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,414评论 2赞 342

连载 | 机器学习基石 Lec 7：VC Dimension 及其“哲学”含义

Lec 7：The VC Dimension

2、Perceptrons Revisited

3、Degree of Freedom

4、进一步了解dvc的意义

推荐阅读更多精彩内容