机器学习技法-集成学习（未完）

第7讲

Aggreation Model：a rich family

select：选一个最好的（E_val最小）

前提假设：有一个是好的，有一堆或这一些好的模型，才能从里面
选出来好的

mix：uniformly投票得到（权重一样）
mix：non-uniformly的投票（带权重的投票）【包含前两个例子】
通过某一个函数决定哪些g起作用 combine the predictions conditionally

Why Might Aggregation Work?

可以扩展模型的能力[ feature transform]
投票决定可以看做是选择一个中庸的结果（和SVM有类似的效果）[ regularization]

blending

手上已经有了g，怎么把它们合起来

uniform blending

当g相同的时候，结果不会提升。不同的时候才有效。

分类问题：投票，回归问题：求平均

对于分类问题而言：多数可以纠正少数
对于回归问题而言:
very different g_t (diversity + democracy):
some g_t (x) > f(x), someg_t(x) < f(x)
⇒ average could be more accurate than individual

结论：even simple uniform blending can be better than any single hypothesis

理论的角度

理论证明

Linear Blending(线性组合)
Any Blending（Stacking）
总结：
如何得到不一样的g
不通的模型，同样的模型不通的参数；模型本身的随机，数据的随机性。

Bagging（uniform的）

没有g的时候可以通过bootstrapping（又放回的抽取）选取数据学习得到不一样的g

第八讲

从一个辨认苹果的例子出发

学生：简单的g_t
整个班级：复杂的G
老师：演算法-关注犯过错误的那些点。

演算法长什么样子：

Bagging：通过bootstrap产生u_n然后用演算法取最小化带u的E_in。
带u的如何训练--让u乘以错误。即u_n*err。对于SVM来说，a_n的上限改变，对LR来说，抽样的比例发生变化。

延伸example-weighted learning: extension of class-weighted learning in Lecture 8 of ML Foundations

从上一讲得知g越不一样，最后的结果越好。如何改变u让g尽可能的不一样。

可以让g_t在新的数据上跟抛硬币没有什么区别。所有犯错的u和没有犯错误的u各占1/2。

一边求g，一边求系数a。，

则adaboost最终的流程为

理论证明

从boosting的角度：只要演算法正确率>1/2,那么通过Ada的方式得到的结果就非常好。

实践中的例子：

Decision Stump的例子。
人脸识别。

总结：Bagging用的是unique的方式，Ada用的是linear(non-uniform)的方式（权重不同）

第九讲

之前学过的总结

Decision Tree可以看成是有条件的聚合
优点：

可解释，易于理解
模型简单（even freshmen can implement one）
相对有效率

缺点：

理论保证少
如何选择合适的树结构对初学者来说比较困惑
决策树代表性的演算法比较少

对于决策树来说需要关注的四点：划分为几部分，分支条件，终止条件，算法的返回值是什么

cart树：

分两部分
g_t是常数

Branching in C&RT: Purifying

左-回归，右-分类

Termination in C&RT

停止条件

cart算法过程
正则化：后剪枝
对类别数据的处理：one vs all
对缺失数据的处理（如果是分支条件）：选择一个和这个类别划分结果类似的属性划分，同时需要保存此属性(替代品)。
比较

比较

优点

cart树的优点

类似的算法——C4.5
其他笔记

9 -- Decision Tree

第十讲-随机森林

回顾：
Bagging算法：演算法不稳定，通过投票的方式可以降低variance。
DecisionTree：对不同的资料很敏感——large variance[especially if fully-grown]。

结合两个的特点提出了RF

优点：

容易并行化（bagging的特点）

继承了cart树的优点

多棵树投票，解决容易单颗树容易过拟合的问题

增加树的diversity（让树看起来不一样）——每次都在feature上做随机抽取，是原始特征空间的一个随机的subspace。

更近一步的增加多样性的方法：考虑用投影的方式选择特征。——投影到任意的方向，把投影到的feature，combine起来。(再理解理解)

回到Bagging的角度

Out-Of-Bag资料

红色 in t-th column: not used for obtaining g_t—called out-of-bag (OOB) examples of g _t
大约只有三分之一的样本没有被选择到。
右边：用验证资料衡量g_t因为这些资料从来没有见过，所以左边的也是这样的。
然而我们需要的是验证G的表现。这一笔资料什么时候可以当做val的资料，没有用这笔资料训练的那些g，即可以用来当做G^-的验证资料。每一行都可以做出来一个G^-,然后求平均。不用另外做val的过程
val原来的用途：训练，验证，再训练-选择模型得出g
自我验证的优点：不需要重复训练，通过self-validation调整完随机森林的系数之后，就完成了模型的建立。

RF用途：Feature Selection

数据存在冗余、或者和label无关的信息。如何自动的移除这些信息。

做完Feature Selection

优点：有效率，剔除了噪音，不容易过拟合，可解释性强
缺点：如何选出来在计算上不太容易，可能会选择到了overfit，可能是错误的解释（关联性而不是因果关系）

做法：
1）看feature的重要性（线性模型里面|w_i|的大小代表着重要性）
2）非线性的比较困难，使用RF解决（random test）原来的特征用别的信息替换，模型的表现变化情况。
　　(1). uniform的，使用高斯分布生成数据
　　(2). permutation test：把第i个维度的数据随便打乱。
通过permutation test 的方式可以看出哪个特征重要。

如何衡量performance（需要val，自然的想到RF里面的OOB）
每一个特征都需要重新训练出来一个模型，因此作者又提出了一个改进，在OOB的资料上面做permutation ，这样最后的结果比较好

供上PPT

总结

使用很多棵树的时候得到的分类边界是平滑的，而且得到了large-margin的效果。
在有噪音的数据上实验结果：noise corrected by voting
树的个数越多模型的稳定性越好。RF的缺点：

第11讲 Gradient Boosted Decision Tree

把decision Tree和 AdaBoost的方法结合起来，给资料新的weight，需要把decision tree改成可以接受weight的版本？如何不改变演算法，则需要在资料上面做改变。权重代表的是资料有几份，按照u通过抽样的方式，得到新的D',

第二个需要考虑的事情：

一颗树完全的生长，在G中的权重变的无限大，则会变成独裁。所以需要解决这个问题：剪枝，只使用一部分样本也就是之前说到的抽样。

当限制树的高度=1的时候，AdaBoost-Stump = special case of AdaBoost-DTree

Adaboost里面的权重计算方式

adaboost是liner blending的延伸，在线性模型里面：

把每个点的权重都加起来，随着adaboost进行的过程希望这个值越小越好。就代表ada想要每个点的margin都越来越正，越来越大。

一个是找方向，一个是找函数，前者给定一个数，给出一个值，后者给一个x，给出一个值。

接下来是考虑怎么加快步长。

前面我们从gradient descent的角度来重新介绍了AdaBoost的最优化求解方法。整个过程可以概括为：

以上是针对binary classification问题。如果往更一般的情况进行推广，对于不同的error function，比如logistic error function或者regression中的squared error function，那么这种做法是否仍然有效呢？这种情况下的GradientBoost可以写成如下形式：

之后讲解了回归的GBDT找时间再次记录

最后编辑于：2018.07.29 07:47:23

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,761评论 5赞 460
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,953评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,998评论 0赞 320
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,248评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,130评论 4赞 356
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,145评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,550评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,236评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,510评论 1赞 291
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,601评论 2赞 310
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,376评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,247评论 3赞 313
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,613评论 3赞 299
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,911评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,191评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,532评论 2赞 342
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,739评论 2赞 335