集成学习是用有限个学习器对同一个问题进行学习,集成在某输入示例下的输出由构成集成的各学习器在该示例下的输出共同决定的。
包括两个步骤:
1 采用一定的个体生成方法,产生多个训练子集,分别训练得到多个独立的个体学习器
2 采用一定的结论合成方法,对构成集成的个体学习器的输出进行合成,得到集成学习结果。
集成学习算法的设计
1 通过处理原始数据集来产生差异性的数据集,在具有差异性的数据子集上训练得到具有差异性的基分类器
2 将生成的一系列基分类器按照某种度量标准或策略选择最优的参与集成分类
3 基分类器的集成
Bagging 算法
1 从大小为n的原始数据集D中,分别独立随机地抽取m个数据(n大于m )形成一个新的数据集
2 将这个过程独立进行多次,直到产生多个独立的新数据集
3 每个新的数据集都独立地用于训练一个基分类器
4 根据投票法将多个基分类器的结果组合起来,得到最终分类结果。