随机森林是一种分类算法,实战中往往比较有用。
简介:如其名,算法里面有一些随机性,另外,主要的思想是很多的决策树(形成森林)的分类结果加权,得到最后的分类结果。
步骤:
1.对每个决策树来说,求一个熵最大化的问题,即信息最大化,尽可能消除随机不确定性。
2.集成学习:就是多个分类器的加权(python里面的scikit)
具体来说,这里面有两个随机:
1.对每个决策树的训练样本有放回的随机采样(bootstrap sample),即每个树的样本都不同,但有重合部分;
2.每次树分裂时,只考虑样本M个特征维度中的很小的一部分,m(m<<M)个,选择这m个中的最优的
以上可以看出,这里只有一个参数m需要调:m减小,树的相关性和分类能力都减弱,相关性越大,最后的错误率越大;分类能力越高,错误率越小。所以m是一个权衡。