机器学习算法深度总结(10)-集成学习

集成学习(Ensemble)是一大类模型融合策略和方法的统称, 包含多种集成学习思想.
集成学习把性能较低的多种弱学习器, 通过适当组合形成高性能强学习器的方法. "三个臭皮匠顶个诸葛亮"这样的言语来形容集成学习器.
常见的集成学习分为对弱学习器独立学习的Bagging学习法和对多个弱学习器依次进行的Boosting学习法. 下面是展示了这两种集成学习法的示意图:


1. Boosting和Bagging

  1. Boosting
    boosting方法训练基分类器时采用串行方式, 各个基分类器之间有依赖.
    基本思路: 基分类器层层叠加, 每一层训练时, 对前一层基分类器分错的样本,给予更高的权重. 测试时, 对各层分类器结果加权得到最终结果.
    同时, 进行加权时, 最开始就能正确分类的样本,权重会逐渐减小, 有可能造成简单样本反而不能正确分类, 故, Boosting学习应边学习边更新样本券种, 并把学习过程中得到的所有分类器放在一起, 对其可信度平局后得到最终强分类器.
    样本加权方法有很多, 最标准的就是Adaboost算法, Adaboost是英文Adaptive Boosting的缩写, 是自适应增强的意思.

  2. Bagging
    Bagging是根据英文单词BootstrapAggregation创造的新词,统计学上的Bootstrap称为自主法, 是指有重复随机选取n个样本, 生成和原始样本集稍有差异样本集的方法.
    Bagging学习法, 一方面经由自主法生成虚拟训练样本, 并对这些样本学习;另一方面, 反复重复该过程后对得到的多个分类器输出通过投票的方式做出集体决策.
    Bagging学习, 重复次数较大, 不易过拟合; 对多个弱分类器学习是并行过程,故Bagging可并行学习.
    典型的Bagging学习法是基于决策树基分类器的随机森林(Random Forest).

  3. Boosting和Bagging的差异
    基分类器错误率大于集成分类器, 基分类器的错误是偏差和方差之和. 基分类器表达能力有限, 表现在训练数据不收敛, 产生偏差; 分类器对样本分布过于敏感, 导致训练样本较少时容易过拟合, 产生方差.

Bagging各弱分类器尽量独立, 可减少基分类器偏差
(1) Bagging采用采取分而治之的策略, 对训练样本多次有放回采样, 并分别训练多个不同模型,然后综合投票 .
(2)设n个随机变量, 方差为\sigma^2, 各随机变量完全独立时, n个随机变量的方差为\sigma^2/n, 整体方差减小到原来的1/n
(3) Bagging分类器, 个子模型应尽量完全独立, 为了追求模型的独立性, 随机森林算法, 每次选取节点分裂属性时, 会随机抽取一些属性自己, 而不是选取最优属性, 这样可避免弱分类器之间过强的相关性; 此外, 对训练集的Boostrap重采样也可使弱分类器之间保持一定的独立性, 从而降低Bagging后模型的方差

Boosting各弱分类器之间强相关, 可减小偏差
(1) Boosting通过逐步聚焦基分类器分错的样本, 可减少集成分类器偏差
(2) Boosting训练好一个弱分类器后, 需计算此分类器的残差, 作为下一个弱分类器输入, 这个过程本身就在不断减小损失函数, 使模型不断逼近"靶心", 从而模型偏差不断降低
(3)Boosting不会降低模型方差, 因为训练过程各弱分类器之间强相关,缺乏独立性

2. GBDT(梯度提升树)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容