连载 | 机器学习基石 Lec 7:VC Dimension 及其“哲学”含义

Lec 7:The VC Dimension

tips:符号含义主要参照lec 1,部分需要参照其他lec

上一节介绍了机器学习可行性的重要理论保障VC Bound,基于此,这节将介绍VC Dimension.


1、Definition of VC Dimension

上一节讲到上限函数B(N,k)的最高次项是k的N - 1次方。

这里将B(N,k)与k的N-1次方做部分比较:

可以看出N的k-1次方已经比B(N,k)大了,实际上我们可以用N的k-1次方bound住B(N,k),可以简化bound:

所以bad data的概率上限现在可以更加简化,不过,要加上上面的条件N≥2 && k≥3:

小summary: H存在k并且N足够大时,可以保证Eout ≈ Ein,所以这时候当A选择一个Ein小的h作为g就probably learned(当然也是需要一点luck的)!

下面进入本节的重点,先给出VC Dimension 的定义。很简单,VC Dimension就是最大的那个非break-point。

稍正式点的定义:表示为dvc(H),为 largest N for which mH(N)= 2的N次方

vc dimension 是H的一个性质,还可以从下面两点看待,一是dvc就是H可以shatter的最大inputs数量;二是dvc = min(k) - 1.

结合上面的内容,成长函数的上限又可以表示为:

所以dvc有限就可以说H是good!有限的dvc就可以保障 Eout(g)≈ Ein(g).

2、Perceptrons Revisited

已知2D的Perceptrons的dvc=3,当N足够大时,learning可行!那当更一般化的、更高维的PLA会怎样呢?

回顾一下,1D的PLA的dvc = 2;2D的PLA的dvc = 3. 猜测:dvc = d + 1???恩,猜对了,哈哈哈,这里先给出结论再给出证明。

证明这个结论可以从两方面证明:一方面dvc ≥ d + 1;一方面 dvc ≤ d + 1

1)dvc ≥ d + 1

这一条代表什么?就是可以找出能够被shatter的d + 1 个inputs .

这里用一组特别的input,用矩阵表示,此矩阵存在反矩阵;y也用矩阵表示,y表示任意的二元组合。能够shatter就表示对于任意的y都能得到sign(Xw)= y .显然可以,所以成立。

2)dvc ≤ d + 1

这一条代表对于“任意”d+2维的inputs都不能shatter.

先看简单的例子 2D PLA. x4 可以被x1 x2 x3的线性组合表示,所以x1 x2 x3的正负确定后,x4的正负也就确定了!下图中x4 必然是正的。这里基本可以得出一个结论:线性依赖(linear dependence)关系限制了dichotomy的最大kind数量!

更一般的情况,X矩阵有d+2个rows、d+1个columns.row>col,所以会有线性依赖。前d+1个确定则d+2个自然就确定了,所以自然不能shatter!所以结论成立。

所以 dvc = d + 1.线性依赖限制了dichotomy的kind数量~

3、Degree of Freedom

dvc = d + 1,d是perceptron的维度,每个w对应一个h,w =(w0,w2,w3,...,wd),dvc代表的是有效的binary分类的自由度(就像调节按钮的调节范围)。自由度也代表了H的powerfulness(就是H能够做多少事情)。

在实际中,通常dvc ≈ 可以调节的参数的个数(but not always)

回想一下关于M的trade off,现在同样dvc有一样的问题(这是自然的,因为我们千辛万苦用N的dvc次方取代了M):

所以,使用合适大小的dvc是很重要的。

这一节的fun time有点意思,这里提一下:

答案是2.这里林老师的目的并不是让我们去证明,而是这样理解:w0已经固定,则可以调节的自由度就少了1个,则dvc是d +1-1.

4、进一步了解dvc的意义

回顾一下vc bound

vc bound限制了发生bad data 的概率,则good 的概率是 1 - δ。good即|Ein(g)- Eout(g)|≤ ε.经过下面的计算可以得到ε的表达式。

见下图,所以,Eout和Ein的差异的大小与dvc是有关的。gen是generalization的缩写。我们通常只需要关注右侧的bound就好了,左侧灰色在此可忽略。dvc大自由度高,但是需要付出更大的代价 ε. 右侧用Ω(N,H,δ) 表示,称为model complexity( 模型复杂度),这里的model可以理解为H.

根据上图中Eout和Ein的关系,我们要给出一个非常非常重要的图!!!

dvc ↑:Ein ↓(有更多机会找到好的g);但是Ω ↑ ;

dvc ↓:Ω ↓ ,但是 Ein ↑

通常最好的dvc在中间位置。

从这张图可以看出H并不是越powerful越好的!(太powerful就会overfiting,后面章节介绍)

之前我们只是想着把Ein变小,其实我们还要考虑需要付出的代价!

一直说需要足够多的data,那N是多少合适呢?根据vc bound 式子以及需求大致可以计算出需要的N的大小。理论上,我们需要 N = 10000 * dvc,太多了太难找到这么多data了。实际中 10 * dvc的data often enough !

why?

因为vc bound 很宽松(looseness),宽松的来源是什么?四点:

1)霍夫丁对任意分布的data以及f都适用;

2)mH(N)成长函数是采样出的any data 对应的dichotomy的最大值;

3)用N的dvc次方是成长函数的上限的上限的上限,我们只用一个值dvc去计算上限,可以忽略H的细节;

4)union bound是考虑了最坏的情况;

其实一路推导都很宽松,所以理论和实际差了很多。

讲了这么多,其实最重要的并不是它的理论部分,而是明白vc bound里面的“哲学”(都在最后一张图里了)。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容