决策树
1. 各种公式
- 信息熵
- 条件熵
- 信息增益
- 信息增益比
- 基尼指数
2. 决策树的生成算法
- ID3: 选择信息增益最大的特征最为节点的特征
- C4.5: 选择信息增益比最大的特征最为节点的特征
3. CART
- 回归树: 平方误差最小化
- 分类树: 基尼指数最小化
4. 剪枝
- 决策树的损失
为树的叶节点,有个样本,其中累样本有个,为叶节点上的经验熵 - CART剪枝算法
- 为CART生成的决策树
- 自下而上地对各内部节点计算以及
表示以为根节点的子树,表示以为根节点的子树的叶节点个数
表示以为单节点树的损失,表示以为根节点子树的损失 - 自上而下地访问内部节点:
- if: , then: 剪枝,多数表决其类别,得到树
- 如果T不是有根节点单独组成地树,转2
- 交叉验证,选区最优子树(平方误差或基尼指数最小的决策树)