机器学习校招笔记3:集成学习之Adaboost

提升的方法就是从弱学习算法出发,反复学习,得到一系列弱分类器(基本分类器),然后组合这些弱分类器,构建一个强分类器。大部分提升方法都是改变训练数据的概率分布(权值分布),根据不同的训练数据分布调用弱学习算法,学习一系列弱分类器。

集成学习按照个体学习器之间是否存在依赖关系可以分为两类,第一个是个体学习器之间存在强依赖关系,另一类是个体学习器之间不存在强依赖关系。前者的代表算法就是是boosting系列算法。在boosting系列算法中, Adaboost是最著名的算法之一。Adaboost既可以用作分类,也可以用作回归。

20170806150200435552068.png
  • 首先从训练集用初始权重训练出一个弱学习器1
  • 根据弱学习的学习误差率表现来更新训练样本的权重,使得之前弱学习器1学习误差率高的训练样本点的权重变高,使得这些误差率高的点在后面的弱学习器2中得到更多的重视。
  • 然后基于调整权重后的训练集来训练弱学习器2.
  • 如此重复进行,直到弱学习器数达到事先指定的数目T,最终将这T个弱学习器通过集合策略进行整合,得到最终的强学习器。

不过有几个具体的问题Boosting算法没有详细说明。

1)如何计算学习误差率e?

2) 如何得到弱学习器权重系数α?

3)如何更新样本权重D?

4) 使用何种结合策略?

只要是boosting大家族的算法,都要解决这4个问题。那么Adaboost是怎么解决的呢?

Adaboost算法的基本思路

对于提升来说要回答两个问题:

  • 每一轮如何改变数据的权值或概率分布

    Adaboost做法:提高那些前一轮弱分类器错误分类样本的权值,降低那些正确分类样本的权值。

  • 如果将弱分类器组合成一个强分类器

    Adaboost做法:采用加权多数表决,加大分类误差率小的弱分类器的权值,使得在表决中起较大作用,减少分类误差率大的权值。

Adaboost的分类问题

20170810150233265418245.png

Adaboost的回归问题

20170810150233234840070.png

Adaboost的例子

参见:http://blog.csdn.net/tiandijun/article/details/48036025

20170810150233279640284.png

图中,“+”和“-”分别表示两种类别,在这个过程中,我们使用水平或者垂直的直线作为分类器,来进行分类。

  • 1.第一步:

    算法最开始给了一个均匀分布 D 。所以h1 里的每个点的值是0.1。ok,当划分后,有三个点划分错了,根据算法误差表达式

    20170810150233311288908.png

    ɛ1 = 0.1 + 0.1 + 0.1 = 0.3

    20170810150233319276303.png

    ɑ1 = 0.42

    根据分类的正确率,得到一个新的样本分布D2­,一个子分类器h1

    20170810150233296155933.png

    划圈的样本表示被分错的,右图中 比较大的“+”表示对该样本做了加权。

    更新权值分布:

    每个样本的新权值是变大还是变小,取决于它是被分错还是被分正确。

    20170810150233328843860.png

    即如果某个样本被分错了,则yi * Gm(xi)为负 负负等正,结果使得整个式子变大(样本权值变大),否则变小。

    分错的权值变大,在下一轮的弱分类器得到更大的关注。

    第一轮迭代后,最后得到各个数据新的权值分布**D2 **= (0.0715, 0.0715, 0.0715, 0.0715, 0.0715, 0.0715, 0.1666, 0.1666, 0.1666, 0.0715)。由此可以看出,因为样本中是数据“6 7 8”被G1(x)分错了,所以它们的权值由之前的0.1增大到0.1666,反之,其它数据皆被分正确,所以它们的权值皆由之前的0.1减小到0.0715。

​ 分类函数f1(x)= a1*G1(x) = 0.42G1(x)。

​ 此时,得到的第一个基本分类器sign(f1(x))在训练数据集上有3个误分类点(即6 7 8)。

​ 从上述第一轮的整个迭代过程可以看出:被误分类样本的权值之和影响误差率,误差率影响基本分类器在最终分类器中所占的权重。(误差率越小,在最后的模型中,起到的作用越大)

  • 2.第二步:

    根据分类的正确率,得到一个新的样本分布D3,一个子分类器h2

    20170810150233361894605.png
  • 3.第三步:

    20170810150233370676746.png

    整合所有子分类器:

    20170810150233373329112.png

指数损失函数(Adaboost)

20170810150233559934150.png

分类Adaboost的弱学习器权重系数公式和样本权重更新公式

Adaboost:

  • 模型为加法模型,

    模型为加法模型好理解,我们的最终的强分类器是若干个弱分类器加权平均而得到的。

  • 学习算法为前向分步学习算法

    我们的算法是通过一轮轮的弱学习器学习,利用前一个弱学习器的结果来更新后一个弱学习器的训练集权重。也就是说,第k-1轮的强学习器为

    $f_{k-1}(x) = \sum\limits_{i=1}^{k-1}\alpha_iG_{i}(x)$

    而第k轮的强学习器为:$f_{k}(x) = \sum\limits_{i=1}^{k}\alpha_iG_{i}(x)$

    上两式一比较可以得到:

    $f_{k}(x) = f_{k-1}(x) + \alpha_kG_k(x)$

  • 损失函数为指数函数的分类问题。

    20170810150233629280351.png
    20170810150233646350158.png

Adaboost优缺点

弱学习器的类型。理论上任何学习器都可以用于Adaboost.但一般来说,使用最广泛的Adaboost弱学习器是决策树和神经网络。对于决策树,Adaboost分类用了CART分类树,而Adaboost回归用了CART回归树

Adaboost的主要优点有:

最大的一个优点是可以自动的组合弱分类器

1)Adaboost作为分类器时,分类精度很高

2)在Adaboost的框架下,可以使用各种回归分类模型来构建弱学习器,非常灵活。

3)作为简单的二元分类器时,构造简单,结果可理解。

4)不容易发生过拟合

Adaboost的主要缺点有:

1)对异常样本敏感,异常样本在迭代中可能会获得较高的权重,影响最终的强学习器的预测准确性。

参见:http://www.cnblogs.com/pinard/p/6133937.html

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,670评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,928评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,926评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,238评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,112评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,138评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,545评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,232评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,496评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,596评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,369评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,226评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,600评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,906评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,185评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,516评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,721评论 2 335

推荐阅读更多精彩内容