机器学习技法(二)

《机器学习技法》是国立台湾大学林轩田讲授的一门课程,课程的上集是《机器学习基石》。相关资源可以在youtube找到,也可在评论区索要云盘链接。本文主要是我学完一遍基石&技法后的笔记梳理,如果存疑请以原课程讲授内容为准,欢迎讨论~[注]本文仅适用于帮助复习,不适用于代替视频课程。

技法分为3个部分,分别为

● 核模型:嵌入大量特征(6小节)

● 融合模型:融合预测性特征(5小节)

● 抽取模型:提取隐性特征(4小节)

本文主要梳理第二部分。

二 融合模型:融合预测性特征(5)

1融合模型

1.1 VS validation


1.2融合模型的功效


1.3融合模型的种类


2 uniform blending

2.1 for classification


2.2 for regression


2.3理论保证



2.4 Bagging算法(Bootstrap

Aggregation)拔靴法融合


2.4.1例子


3 non-uniform blending

3.1 linear blending

for classification:


for regression:只需把sign改成1/N。

3.1.1α的计算


实践中通常是用minEval(α)


3.2 Any Blending


3.3 AdaBoost(Adptive

Boosting自适应增强) 皮匠法

3.3.1动机 三个臭皮匠赛过诸葛亮


3.3.2 teacher

3.3.2.1作用


u可以看作是子资料的权重,我们需要调整子资料的权重来获得更多样性的假设集。

3.3.2.2调整子资料的权重来获得更多样性的假设集


3.3.2.3算法



4决策树(conditionallearning)




4.1基本算法


4.2 Classification and RegressionTree(C&RT)



4..2.1 regularization by pruning(剪枝)


4.2.2 C&RT的特点

4.2.2.1容易处理类别特征


4.2.2.2容易处理丢失特征


4.2.3例子


4.2.4特点



5随机森林(bagging+fully-grownDTree)

5.1动机


5.2用特征分解的方式产生不同的树



5.3用OOB做自检

5.3.1 OOB的来源与大小


5.3.2自检


用于投影维度(d’’)的选择:


5.4特征选择


DTree和Adaboosting(stump横刀/纵刀针对x1/x2)都是rare model with built-in feature selection少有的内建特征选择的模型

对于RF:


5.4.1实现方法:permutation

test排列测试


优化:



5.5例子

例1


DTree


RF

例2(有杂讯):


RF

DTree会overfit,经过投票,RF能够容噪(蓝区内允许x,红区内允许o)

5.6调参经验


6 Gradient Boosted Decision Tree梯度提升决策树(Adaboost+pruned DTree)

6.1动机


加权取样,训练出不同的决策树,再用线性blending融合。

6.2 weighted

SVM的话直接改Ein部分即可,


DTree为了保证不对算法本身做修改,只能在取样下文章。


6.3 pruned DTree


完全长成的树不可行


完全剪枝的树会退化成AdaBoost-Stump

6.4 Adaboost


这里橙色部分,可以看成

①线性投票


②离hyperplane的距离


看成距离以后,若yn为负希望sn越负越好,若yn为正希望sn越正越好。

6.4.1误差函数


这个目标函数希望最小化,可以把它当作以前的误差函数,即使它并不是误差。

把这个误差做好了,同时也能把s和y同号这个二分类问题做好,即最后s和y差不多都是同号的。


6.4.2最小化误差函数

加一个好的g和α进去,由于g和α都还不知道,先用h和η表示


①找到好的h:



最终返回一个在u(t)资料上Ein最小的h加到融合模型里头。h可看作是梯度下降的方向。

②找到好的η:


③总结:AdaBoost可看作steepest descent(η) with approximate(泰勒) functional gradient(h)

6.5 GradientBoost


以下for regression

6.5.1好的h



6.5.2好的η


6.5.3应用:GBDT


7总结

7.1 blending


7.2 learning


7.3 aggregation


效果:


©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容