转自微信公众号:机器学习算法与Python学习
决策树
决策树很重要的一点就是选择一个属性进行分支,因此要注意一下信息增益的计算公式并深入理解它
信息熵公式如下:
其中,n代表有n个分类。
信息增益ID3
信息增益比C4.5 当训练数据集经验上大的时候,信息增益会偏大,为了消除这种影响,引入信息增益比
CART分类树基尼系数
目的是为了增加子集的平均纯度
选中一个属性xi来进行分枝,分枝规则为:如果xi=vx的话,将样本分到树的一个分支;如果不相等则进入另一个分支。很显然,分支中的样本很有可能包括2个类别,分别计算这2个分支的熵H1和H2,计算出分枝后的总信息熵H’=p1*H1+p2*H2.,则此时的信息增益ΔH=H-H’。以信息增益为原则,把所有的属性都测试一边,选择一个使增益最大的属性作为本次分枝属性。
决策树的优点:
计算量简单,可解释性强,比较适合处理有缺失属性值的样本,能够处理不相关的特征;
缺点:
容易过拟合(后续出现了随机森林,减小了过拟合现象);