机器学习技法-集成学习(未完)

第7讲

Aggreation Model:a rich family

  • select: 选一个最好的(E_val最小 )

前提假设:有一个是好的,有一堆或这一些好的模型,才能从里面
选出来好的

  • mix:uniformly投票得到(权重一样)

  • mix:non-uniformly的投票(带权重的投票)【包含前两个例子】

  • 通过某一个函数决定哪些g起作用 combine the predictions conditionally

Why Might Aggregation Work?

  1. 可以扩展模型的能力[ feature transform]
  2. 投票决定可以看做是选择一个中庸的结果(和SVM有类似的效果)[ regularization]

blending

手上已经有了g,怎么把它们合起来

  • uniform blending

当g相同的时候,结果不会提升。不同的时候才有效。

分类问题:投票,回归问题:求平均

对于分类问题而言:多数可以纠正少数
对于回归问题而言:
very different gt (diversity + democracy):
some gt (x) > f(x), somegt(x) < f(x)
⇒ average could be more accurate than individual

结论:even simple uniform blending can be better than any single hypothesis

理论的角度

理论证明

  • Linear Blending(线性组合)

  • Any Blending(Stacking)

  • 总结:


  • 如何得到不一样的g
    不通的模型,同样的模型不通的参数;模型本身的随机,数据的随机性。

Bagging(uniform的)

  • 没有g的时候可以通过bootstrapping(又放回的抽取)选取数据学习得到不一样的g

第八讲

从一个辨认苹果的例子出发

  • 学生:简单的gt
  • 整个班级:复杂的G
  • 老师:演算法-关注犯过错误的那些点。

演算法长什么样子:

  1. Bagging:通过bootstrap产生un然后用演算法取最小化带u的Ein
  2. 带u的如何训练--让u乘以错误。即un*err。对于SVM来说,an的上限改变,对LR来说,抽样的比例发生变化。

延伸example-weighted learning: extension of class-weighted learning in Lecture 8 of ML Foundations

  1. 从上一讲得知g越不一样,最后的结果越好。如何改变u让g尽可能的不一样。

    可以让gt在新的数据上跟抛硬币没有什么区别。所有犯错的u和没有犯错误的u各占1/2。

    一边求g,一边求系数a。,
    则adaboost最终的流程为

    理论证明

    从boosting的角度:只要演算法正确率>1/2,那么通过Ada的方式得到的结果就非常好。

实践中的例子:

  1. Decision Stump的例子。
  2. 人脸识别。

总结:Bagging用的是unique的方式,Ada用的是linear(non-uniform)的方式(权重不同)


第九讲

之前学过的总结



Decision Tree可以看成是有条件的聚合
优点:

  1. 可解释,易于理解
  2. 模型简单(even freshmen can implement one)
  3. 相对有效率

缺点:

  1. 理论保证少
  2. 如何选择合适的树结构对初学者来说比较困惑
  3. 决策树代表性的演算法比较少

对于决策树来说需要关注的四点:划分为几部分,分支条件,终止条件,算法的返回值是什么

cart树:

  1. 分两部分
  2. gt是常数

Branching in C&RT: Purifying
左-回归,右-分类

Termination in C&RT
停止条件

cart算法过程
正则化:后剪枝
对类别数据的处理:one vs all
对缺失数据的处理(如果是分支条件):选择一个和这个类别划分结果类似的属性划分,同时需要保存此属性(替代品)。
比较

比较

优点
cart树的优点

类似的算法——C4.5
其他笔记

9 -- Decision Tree


第十讲-随机森林

回顾:
Bagging算法:演算法不稳定,通过投票的方式可以降低variance。
DecisionTree:对不同的资料很敏感——large variance[especially if fully-grown]。

结合两个的特点提出了RF
RF

优点:

  • 容易并行化(bagging的特点)
  • 继承了cart树的优点
  • 多棵树投票,解决容易单颗树容易过拟合的问题

增加树的diversity(让树看起来不一样)——每次都在feature上做随机抽取,是原始特征空间的一个随机的subspace。

更近一步的增加多样性的方法:考虑用投影的方式选择特征。——投影到任意的方向,把投影到的feature,combine起来。(再理解理解)

回到Bagging的角度

Out-Of-Bag资料
  1. 红色 in t-th column: not used for obtaining gt—called out-of-bag (OOB) examples of g t

  2. 大约只有三分之一的样本没有被选择到。


  3. 右边:用验证资料衡量gt因为这些资料从来没有见过,所以左边的也是这样的。

  4. 然而我们需要的是验证G的表现。这一笔资料什么时候可以当做val的资料,没有用这笔资料训练的那些g,即可以用来当做G-的验证资料。每一行都可以做出来一个G-,然后求平均。不用另外做val的过程

  5. val原来的用途:训练,验证,再训练-选择模型得出g
    自我验证的优点:不需要重复训练,通过self-validation调整完随机森林的系数之后,就完成了模型的建立。

RF用途:Feature Selection

数据存在冗余、或者和label无关的信息。如何自动的移除这些信息。

  1. 做完Feature Selection
  • 优点:有效率,剔除了噪音,不容易过拟合,可解释性强
  • 缺点:如何选出来在计算上不太容易,可能会选择到了overfit,可能是错误的解释(关联性而不是因果关系)
  1. 做法:
    1)看feature的重要性(线性模型里面|wi|的大小代表着重要性)
    2)非线性的比较困难,使用RF解决(random test)原来的特征用别的信息替换,模型的表现变化情况。
      (1). uniform的,使用高斯分布生成数据
      (2). permutation test:把第i个维度的数据随便打乱。
    通过permutation test 的方式可以看出哪个特征重要。
  • 如何衡量performance(需要val,自然的想到RF里面的OOB)
  • 每一个特征都需要重新训练出来一个模型,因此作者又提出了一个改进,在OOB的资料上面做permutation ,这样最后的结果比较好
    供上PPT
总结
  1. 使用很多棵树的时候得到的分类边界是平滑的,而且得到了large-margin的效果。
  2. 在有噪音的数据上实验结果:noise corrected by voting
  3. 树的个数越多模型的稳定性越好。RF的缺点:

第11讲 Gradient Boosted Decision Tree

把decision Tree和 AdaBoost的方法结合起来,给资料新的weight,需要把decision tree改成可以接受weight的版本?如何不改变演算法,则需要在资料上面做改变。权重代表的是资料有几份,按照u通过抽样的方式,得到新的D',

第二个需要考虑的事情:

一颗树完全的生长,在G中的权重变的无限大,则会变成独裁。所以需要解决这个问题:剪枝,只使用一部分样本也就是之前说到的抽样。

当限制树的高度=1的时候,AdaBoost-Stump = special case of AdaBoost-DTree

Adaboost里面的权重计算方式

adaboost是liner blending的延伸,在线性模型里面:

把每个点的权重都加起来,随着adaboost进行的过程希望这个值越小越好。就代表ada想要每个点的margin都越来越正,越来越大。

一个是找方向,一个是找函数,前者给定一个数,给出一个值,后者给一个x,给出一个值。

接下来是考虑怎么加快步长。

前面我们从gradient descent的角度来重新介绍了AdaBoost的最优化求解方法。整个过程可以概括为:

以上是针对binary classification问题。如果往更一般的情况进行推广,对于不同的error function,比如logistic error function或者regression中的squared error function,那么这种做法是否仍然有效呢?这种情况下的GradientBoost可以写成如下形式:

之后讲解了回归的GBDT找时间再次记录

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,761评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,953评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,998评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,248评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,130评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,145评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,550评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,236评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,510评论 1 291
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,601评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,376评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,247评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,613评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,911评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,191评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,532评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,739评论 2 335

推荐阅读更多精彩内容