机器学习_集成算法

为什么使用集成算法

 简单算法一般复杂度低,速度快,易展示结果,但预测效果往往不是特别好。每种算法好像一种专家,集成就是把简单的算法(后文称基算法/基模型)组织起来,即多个专家共同决定结果。

如何组织算法和数据

 这里我们的着眼点不是某个算法,某个函数,而是对数据和算法整体的规划。
 从数据拆分的角度看:可以按行拆分数据,也可以按列给属性分组。
 从算法组合的成份看:可以集成不同算法,也可以集成同一算法不同参数,还可以集成同一算法使用不同数据集(结合数据拆分)。
 从组合的方式看:可以选择少数服从多数,或加权求合(可根据正确率分配权重)。
 从组合的结构看:可以是并行,串行,树型或者更复杂。
 综上,我们看到了各种构造集成的方法,这里面可选的组合太多,不可能一一尝试,目前拼的还是人的经验:对数据的理解,对算法的组织,以及对工具的驾驶能力。在使用集成算法的过程中,除了调库,调参,更重要的是领会精神。也可以自己编写一些集成算法。

三个臭皮匠顶个诸葛亮

 三个臭皮匠是否能顶诸葛亮,这还得具体问题,具体分析。如果基算法选错了,即使再怎么组合,再怎么调参也没用。但有些问题确实可以拆开看,达到1+1>2的效果,比如说,用线性函数去拟合曲线,效果不好,但是如果用分段线性函数,效果还不错。分段线性函数就可看作线性函数的集成(把数据横着拆开了),只不过这种集成要比直接调集成函数复杂一些。

分段线性拟合

 一般来说集成的会比不集成效果好,但集成的过程也会增加复杂度。

常用的集成算法

 集成算法一般分为三类:Bagging,Boosting,Stacking(我们可以把它简单地看成并行,串行和树型)。Bagging是把各个基模型的结果组织起来,取一个折中的结果;Boosting是根据旧模型中的错误来训练新模型,层层改进;Stacking是把基模型组织起来,注意不是组织结果,而是组织基模型本身,该方法看起来更灵活,也更复杂。

1. Bagging(自举汇聚法)
 Bagging的全称是bootstrap averaging,它把各个基模型的结果组织起来,具体实现也有很多种类型,以sklearn中提供的Bagging集成算法为例:
 BaggingClassifier/BaggingRegressor是从原始数据集抽选S次(抽取实例,抽取属性),得到S个新数据集(有的值可能重复,有的值可能不出现)。使用同一模型,训练得到S个分类器,预测时使用投票结果最多的分类。
 RandomForestClassifier随机森林,它是对决策树的集成,用随机的方式建立一个决策树的森林。当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行判断,预测时使用投票结果最多的分类,也是少数服从多数的算法。
 VotingClassifier,可选择多个不同的基模型,分别进行预测,以投票方式决定最终结果。
 Bagging中各个基算法之间没有依赖,可以并行计算,它的结果参考了各种情况,实现的是在欠拟合和过拟合之间取折中。

2. Boosting(提升法)
 Boosting不断的建立新模型,而新模型更重视上一个模型中被错误分类的样本,最终根据按成功度加权组合得到结果。
 由于引入了逐步改进的思想,重要属性会被加权,这也符合人的直觉。一般来说,它的效果会比Bagging好一些。由于新模型是在旧模型的基本上建立的,因此不能使用并行方法训练,并且由于对错误样本的关注,也可能造成过拟合。常见的Boosting算法有:
 AdaBoost自适应提升算法,它对分类错误属性的给予更大权重,再做下次迭代,直到收敛。AdaBoost是一个相对简单的Boosting算法,可以自己写代码实现,常见的做法是基模型用单层分类器实现(树桩),桩对应当前最适合划分的属性值位置。
 Gradient Boosting Machine(简称GBM)梯度提升算法,它通过求损失函数在梯度方向下降的方法,层层改进,sklearn中也实现了该算法:GradientBoostingClassifier/GradientBoostingRegressor。GBM是目前非常流行的一类算法,在后面详细说明。

3. Stacking
 Stacking训练一个模型用于组合(combine)其他各个基模型。具体方法是把数据分成两部分,用其中一部分训练几个基模型A1,A2,A3,用另一部分数据测试这几个基模型,把A1,A2,A3的输出作为输入,训练组合模型B。注意,它不是把模型的结果组织起来,而把模型组织起来。理论上,Stacking可以组织任何模型,实际中常使用单层logistic回归作为模型。Sklearn中也实现了stacking模型:StackingClassifier

梯度提升算法(GB**)

 Gradient Boosting Machine(GBM)梯度提升算法是目前比较流行的数据挖掘模型,它是泛化能力较强的算法,常用于各种数据挖掘比赛之中。常用的工具有XGBoost,LightGBM,sklearn提供的GradientBoostingClassifier等等。GBM常把决策树作为基模型,我们常看到的GBDT梯度提升决策树,一般也是指该算法。
 通常我们使用GBM都是直接调库,所以我们关注的是:什么时候用它,选用哪个GBM库,给它什么样的数据,以及具体调参。
GBM的原理是希望通过集成基模型使得模型总体的损失函数在梯度方向上下降(梯度下降具体见《深度学习——BP神经网络》篇),模型不断改进。
在调参方面,作为梯度下降算法,我们也需要在参数中指定学习率(每次迭代改进多少),误差函数(在回归问题中判断预测值与实际值的差异);是与决策树结合时,还需要指定树的大小;另外还要设置迭代的次数,每次抽取样本的比例等等。
 在选库方面,sklearn中提供的GradientBoostingClassifier是GBM最基本的实现,同时还提供了图形化工具,让开发者对GBM中的各属性有直观理解。不过Sklearn是一个算法集,不是专门做GBM的。

Feature

 XGBoost(eXtreme Gradient Boosting)是一个单独的工具包,对GBDT做了一些改进:比如加入线性分类器的支持,正则化,对代价函数进行了二阶泰勒展开,缺失值处理,提高了效率,支持分布式计算等等。
 LightGBM(Light Gradient Boosting Machine)同样是一款基于决策树算法的分布式梯度提升框架。相对于XGBoost,速度又有提高,并且占用内存更少。
几个工具的比较详见《关于树的几个ensemble模型的比较(GBDT、xgBoost、lightGBM、RF)》

实例:

  1. 说明:
    实例摘自sklearn官网上GBM的例程,实现的是波士顿房价预测,它使用4层决策树,经过500次迭代之后预测房价,从图中可看到,预测结果的均方误差在迭代的过程中是如何下降的,以及从模型中提取的变量与结果的相关性。

  2. 核心代码

params = {'n_estimators': 500, 'max_depth': 4, 'min_samples_split': 2,
          'learning_rate': 0.01, 'loss': 'ls'}
clf = ensemble.GradientBoostingRegressor(**params)
clf.fit(X_train, y_train)
mse = mean_squared_error(y_test, clf.predict(X_test))
print("MSE: %.4f" % mse)
  1. 完整代码下载
    http://scikit-learn.org/stable/auto_examples/ensemble/plot_gradient_boosting_regression.html#sphx-glr-auto-examples-ensemble-plot-gradient-boosting-regression-py
  2. 运行结果


    房价预测

参考

  1. GBDT源码分析之一 :总览
    http://www.jianshu.com/p/02cfaae3fd01
  2. 机器学习算法中GBDT和XGBOOST的区别有哪些?
    https://www.zhihu.com/question/41354392
  3. GBDT:梯度提升决策树
    http://www.jianshu.com/p/005a4e6ac775
  4. Ensemble methods
    http://scikit-learn.org/stable/modules/ensemble.html
  5. 机器学习系列(12)_XGBoost参数调优完全指南
    http://blog.csdn.net/han_xiaoyang/article/details/52665396
  6. 关于树的几个ensemble模型的比较(GBDT、xgBoost、lightGBM、RF)
    http://m.blog.csdn.net/xwd18280820053/article/details/68927422
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容