连载 | 机器学习基石 Lec 5:Growth Function & Break Point

Lec5:Training versus Testing

tips:符号含义参照Lec1

上一节中我们得到在一些条件下,learning is feasible!这一节我们将接着上一节探讨在 M = | H | 无限大时是怎样的?

learning实际可以分两部分看待:

1)Ein(g)≈ 0:在in - sample上应该尽量小,这是在train时希望的事情。

2)Eout(g)≈ Ein(g):Eout要和Ein接近,这是test阶段希望的事情,在 Out -of -sample 上表现好才是目标!


1、Trade-off on M

上面的回顾说learning可以分为两个问题:1)Eout是不是和Ein足够接近?2)Ein是不是足够小?

那么 M 跟这两个问题有什么关系?

small M:1)yes!但  2)no!(选择太少);

large M:1)No!(P[Bad]几率增加)但  2)yes!  

所以M太大太小都不好,trade off!当M无限大时显然bad,那之前的PLA是不对的吗?after 3 more lectures (;′⌒`)

我们要想办法解决large M,甚至无限大M 。已知:

如果我们可以用一个有限的 mH 代替M,似乎就可以解决这个问题了。下面将从理论上说明这件事是可以的。


2、H的kind有限

先回想一下M从何而来的?级联上限!通俗点讲,霍夫丁不等式只能保证一个h遇到bad data的概率小,M个h遇到bad data的概率就乘以M,如果保证union bound小,这时候A就可以在H中随意做选择。但是M无限大时boom!这个“上限”是哪里有问题呢?

考虑 h1 ≈ h2的情况,union bound 时区别对待h1和h2,实际上并不需要加两次霍夫丁,这就造成级联上限over-estimating过度估计!这就是问题所在。为了解决这个问题,我们可以把类似的hypothesis分类。如何归类?以perceptron为例,line的个数是无限多的,种类呢?

1个input时,x1,只有2种kind,一种是类似h1的,将x1划分为+1;另一种是类似h2的,将x1划分为-1.

2个input时,x1、x2,有4种kind,圈代表+1,叉代表-1,如下图:

3个input时,x1、x2、x3,有8种kind,如图:

到这你是不是觉得自己已经发现规律了,kind就是2的N方嘛!不要急,接着看3个input的情况,会一直有8个kind吗?考虑三点共线的情况,实际上会有2个kind不存在,这时只有6个kind。此外,当input重叠时,kind也会小于2的N次方。

接着看有4个input的情况,x1、x2、x3、x4,会有16种kind吗?

图中只给出了8张图,另外8张是跟此图对称的。其中一个kind无论如何都是实际不存在的,所以4个input的时候,最多14个kind。

把N个输入时最多的kind数量叫做effective number of lines,有效数量 ≤ 2的N次方。无限多的lines的kind有限,如果可以用有限的有效数量取代M,并且effective(N)<<2的N次方,那么M无限大时learning is possible!下面证明这是可以的。

3、Growth Function

先来介绍个新名词dichotomies,表示kind,在(x1,x2,...,xN)上,H包括所有的dichotomies.

不同的data,dichotomies的数量也会有不同,如上节3个输入的情况。所以我们只考虑dichotomies的最大值,用m(H)表示,称为“成长函数”growth function。

怎么计算成长函数?perceptron的较难计算,先看几个简单的例子:

1)positive rays:

h(x)= sign(x - a),实际就是1维的perceptron,mH(N)= N + 1,当N很大的时候,N+1 << 2的N次方;

2)positive intervals:

h(x)= +1 iff x∈[l,r),-1otherwise ,mH(N)= 1/2(N*N+N)+1,就是C N 2,从N个里面选两个点,再加上全部是叉的情况。当N很大时,mH(N)H<<2的N次方。

3)convex sets:

平面上凸region的集合,下图蓝色部分就是一个convex region:

h(x)=+1 iff x in region,mH(N)= 2的N次方。why?对于N个输入,不管哪些x为+1,我们都能做出一个凸多边形将+1包括在内,-1排除在外,如下图:

我们将mH(N)= 2的N次方的情况称为 exist N inputs can be “shattered”

小summary,这节有三个新名词:dichotomies、growth function、shattered


4、Break Point

总结一下四个不同的成长函数:

如果我们要用成长函数取代M,m是多项式时,exp下降很快:good;m是指数型时,指数增长 * 指数下降exp,并不能确保bound小:bad.

那么perceptron的成长函数是指数的还是多项式的呢?下一章证明。在此之前再来介绍一个新名词:break point!

如果mH(k)< 2的k次方,k就是一个break point . 而且k+1、k+2、k+3......都是break point!我们通常关心最小的那个break point k.如2维perceptron 最小的break point 是4。如果shattered,就没有break point,如convex sets!

下一章我们将证明,如果有k,则mH(N)= O(N的k-1次方),即多项式。欢迎继续关注~~~

【如果您坚持读到了最后~就点个赞、打个赏激励下吧,哈哈~】

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,524评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,869评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,813评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,210评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,085评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,117评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,533评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,219评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,487评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,582评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,362评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,218评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,589评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,899评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,176评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,503评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,707评论 2 335

推荐阅读更多精彩内容