bagging
bagging:bootstrap aggregating的缩写,对训练集合随机抽取样本,每轮的分训练集由训练集中N个样本构成,某个训练样本在一轮训练集中可以出现多次或根本不出现。将随机抽取的子集放到算法中训练,计算预测函数,T轮循环后得到一个结果集。最终的预测函数对分类问题采用投票方式,对回归问题采用简单平均方法判别。
boosting
主要是AdaBoost(Adaptive Boosting)。
初始化时对每一个训练例赋相等的权重1/n,然后用该学算法对训练集训练t轮。
每次训练后,对训练失败的训练例赋以较大的权重,也就是让学习算法在后续的学习中集中对比较难的训练例进行学习,从而得到一个预测函数序列h_1,⋯, h_m 。
其中h_i也有一定的权重,预测效果好的预测函数权重较大,反之较小。
最终的预测函数H对分类问题采用有权重的投票方式,对回归问题采用加权平均的方法对新示例进行判别。
(类似Bagging方法,但是训练是串行进行的,第k个分类器训练时关注对前k-1分类器中错分的文档,即不是随机取,而是加大取这些文档的概率。)
bagging 和 boosting 都可以有效的提高分类的准确性。在大多数数据集中,boosting准确性比较高,在有些情况里,boosting会引起一些退化。