衡量标准——熵
熵:熵是表示随机变量不确定性的度量(解释:说明物体内部的混乱程度)
公式:H(X) = - ΣPi * logPi , i = 1,2……n
剪枝处理——防止过拟合
- 预剪枝:是指决策树生成过程中,对每个节点在划分前进行估计,若当前节点的划分不能带来决策树返话费能力的提升,则停止划分并将当前节点标记为叶结点————>缺点(有可能欠拟合)
-
后剪枝:先从训练集生成一棵完整的决策树,然后自底而上地对非叶节点进行考察,若将该点对应的子树换为叶节点能带来决策树泛化能力的提升,则该子树替换为叶节点————>缺点(训练时间长)