Bagging-随机森林

Bagging流派的机器学习, 其学习器之间没有没有依赖关系, 这意味着可以并行计算, Bagging的弱学习器之间没有boosting那样的联系, 它的特点在于随机采样, 这个采样是有放回的采样
对于某个样本, 它在含有m个样本的数据中, 每次被采集到的概率是\frac{1}{m}, 那么不被采样到的概率是1-\frac{1}{m}, 如果样本经过m次采样都没有被采到, 那么这个概率是(1-\frac{1}{m})*m, 当m\rightarrow\infty时, (1-\frac{1}{m})*m \rightarrow \frac{1}{e} \approx 0.368, 也就是说, bagging每轮随机采样中, 大约有36.8%的样本没有被采集到, 这部分数据通常被称作袋外数据(Out-Of-Bag, OOB), 这些数据没有参与训练模型, 可以被用来检测模型的泛化能力

Bagging 算法的流程

  1. 输入样本T, m个样本
  2. 对于迭代次数 k=1,2,...,K:
  • 对训练集进行随机采样, 得到包含 m个样本的数据集D_k
  • 训练一个分类器 G_k(x)
  1. 回归/分类算法结束

随机森林

  • 首先,RF使用了CART决策树作为弱学习器
  • RF对决策树的建立做了改进,RF通过随机选择节点上的一部分样本特征,这个数字小于n,假设为n_{sub},然后在这些随机选择的n_{sub}个样本特征中,选择一个最优的特征来做决策树的左右子树划分。这样进一步增强了模型的泛化能力。
    如果n_{sub}=n,则此时RF的CART决策树和普通的CART决策树没有区别。
    n_{sub}越小,则模型越健壮,当然此时对于训练集的拟合程度会变差。也就是说n_{sub}
    越小,模型的方差会减小,但是偏差会增大。在实际案例中,一般会通过交叉验证调参获取一个合适的n_{sub}的值.
    为什么会出现这样的情况呢? n_{sub}变小, 相当于模型使用的数据变小了, 那么对应得方差变化区间受到限制, 但预测准确性则变低

RF的算法原理也终于讲完了,作为一个可以高度并行化的算法,RF在大数据时候大有可为。 这里也对常规的随机森林算法的优缺点做一个总结。

RF的主要优点有:

  • 训练可以高度并行化,速度快

  • 由于可以随机选择决策树节点划分特征,这样在样本特征维度很高的时候,仍然能高效的训练模型。

  • 随机, 这个做法,在统计里, 是一个非常重要的概念, 比较抽象, 有时候,能增强模型的泛化能力

  • 在训练后,可以给出各个特征对于输出的重要性:
    之所以能给出特征的重要性, 是因为有OOB的存在, 对于生成的每一个弱分类器, 计算它的OOB, 之后对这些树使用的feature加入噪声, 再次计算OOB误差, 看两次的OOB, 如果变化不大, 证明这些(个)feature是重要的

  • 由于采用了随机采样,训练出的模型的方差小,泛化能力强。

  • 相对于Boosting系列的Adaboost和GBDT, RF实现比较简单。

  • 对部分特征缺失不敏感。
    RF的主要缺点有

  • 在某些噪音比较大的样本集上,RF模型容易陷入过拟合。

  • 取值划分比较多的特征容易对RF的决策产生更大的影响,从而影响拟合的模型的效果。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,590评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,808评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,151评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,779评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,773评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,656评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,022评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,678评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,038评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,756评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,411评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,005评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,973评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,053评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,495评论 2 343

推荐阅读更多精彩内容