连载 | 机器学习基石 Lec 4: Machine Learning的可行性 & 霍夫丁不等式

Lec 4:Feasibility of Learning

上一章中我们介绍了各种各样的机器学习,本门课的着重点是binary classification or regression from a batch of supervised data with concrete features.

这一章(实际还要加上接下来的Lec6和7)介绍机器学习是不是可行的?!这是个有趣的问题(^_^)机器学习当前如此热门,答案当然是可行的,但你不一定知道它为什么可行!?个人认为,机器学习的可行性问题,或者说是理论保障,是设计机器学习算法以及techniques的根本出发点!

Tips:符号含义请参照Lec1


1,Learning is impossible?

第一节的几个小栗子告诉我们,我们从已知的data(D)中学到的完美的g很可能会不适用于未知的data(outside D),而预测未来的data又是机器学习的目的。那么机器学习是不是不可行呢?

2、Inferring something unknown & 霍夫丁不等式

我们可以想一想有没有推测未知事情的场景?!学过概率论的一定都接触过。举一个具体的例子:有一个装了很多很多橘色和绿色弹珠的罐子,我们知道橘色占的比例吗?不知道。但是我们可以推测(infer)橘色占的比例吗?可以!这类问题在统计学中很常见。如何infer?

假设橘色罐子中的实际比例是�μ。�独立随机抽取样本sample,在sample中橘色比例是v,则绿色比例是1-v。统计学中,in-sample 的vout-of-sample的μ大部分时候是接近的。抽取sample的大小用N表示。

这件事情在数学中的描述是:

这个不等式的含义是,当N很大时,v和μ相差ε(误差范围)的概率很小,这就是著名的“霍夫丁不等式”Hoeffding‘s Inequality。我们说“v = μ”这个式子是probably approximately correct(PAC),大概差不多是对的。

关于霍夫丁不等式:

1)对任意N和ε都成立;

2)不需要知道 μ;

3)当N larger、looser gap ε(较大的容忍度),那么 v ≈ μ的概率会higher;

因此,如果sample够大的话,我们可以通过v infer μ(概率论知识)。

这个不等式十分重要~个人认为它是机器学习最基本的理论保障~

3、Connection to learning

上一节中关于弹珠和概率等等的介绍和机器学习有什么关系呢?

针对一个h,可以把抽到橘色情况看作是wrong,即h(x)≠ f(x),对应地绿色代表right,即h(x)= f(x)。那么 μ 就是Eout(h),v就是Ein(h)。这样我们可以通过已知的Ein推测未知的 Eout 。霍夫丁不等式可以写作

与前面类似,“Ein(h)= Eout(h)”是PAC。如果Ein(h)≈ Eout(h)并且Ein较小,就能推出Eout(h)较小,从而推出h≈f,我们可以依据Ein的大小verify某个h。至此,这些理论只能用来判断某个h的好坏,真正的机器学习还需要用算法A从H中选出一个“good”h作为g.

4、Multiple h

上一小节中对一个h进行讨论得出verify h的准则,这节考虑一下在很多个h中做选择的情况,霍夫丁不等式会是什么作用?

抽样存在很多情况,难免出现Bad sample(Ein和Eout相差很大的sample)。霍夫丁不等式说明针对一个h出现bad sample的几率很小。但是当有很多个h时,bad data就很可能出现(如课件中抛硬币的例子),当bad sample的Ein又很小时,我们作出选择时就会worse情况。Bad sample也就是Bad Data。

霍夫丁不等式是针对某个h成立,它表示对于一个h来说,bad data出现的几率small。

当有很多h时,出现bad data的概率上限可以使用“联级上限”union bound获得。M=|H|,即hypothesis set的size(在下一章Lec5中我们将看到这个上限实际上很loose)。

由上式可以知道:

1)当M有限大时,如果N足够大,A选出的任意g都会有Eout(g)≈ Ein(g),如果Ein(g)≈ 0,Eout(g)≈ 0是PAC的,学习有效,learning is feasible!

2)But当M无限大时,boom!如Perceptrons(注意:这里不是PLA,是Perceptrons。PLA是算法,Perceptrons才是H)。接下来将需要Lec5~Lec7三章内容揭秘类似Perceptrons情况的可行性问题。欢迎继续学习!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342

推荐阅读更多精彩内容