1. 两个关键流程:
1. 1怎么选择一个特征,做分裂,其依据是什么?
1.2 怎么停止,停止分裂的依据是什么?
关于1.1, ID3, C4.5, CART有不同的依据(损失函数)
ID3 用 信息增益
C4,5 用信息增益率
CART 用Gini
关于1.2, 停止分裂依据
(1)最小节点数
当节点的数据量小于一个指定的数量时,不继续分裂。两个原因:一是数据量较少时,再做分裂容易强化噪声数据的作用;二是降低树生长的复杂性。提前结束分裂一定程度上有利于降低过拟合的影响。
(2)熵或者基尼值小于阀值。
由上述可知,熵和基尼值的大小表示数据的复杂程度,当熵或者基尼值过小时,表示数据的纯度比较大,如果熵或者基尼值小于一定程度数,节点停止分裂。
(3)决策树的深度达到指定的条件
节点的深度可以理解为节点与决策树跟节点的距离,如根节点的子节点的深度为1,因为这些节点与跟节点的距离为1,子节点的深度要比父节点的深度大1。决策树的深度是所有叶子节点的最大深度,当深度到达指定的上限大小时,停止分裂。
(4)所有特征已经使用完毕,不能继续进行分裂。
额外注意:
CART 是二叉树,无论连续特征离散化的方式,还是多类离散特征,均是切一刀。
CART 也可以做回归树,此时用方差做分裂依据。
https://www.cnblogs.com/yonghao/p/5135386.html