- 决策树是一种非参数模型,用于分类和回归。
- 如何构造决策树?步骤
- 选择根节点特性
- 分割子集
- 递归分割每个分支
- 如何选择最佳属性作为根节点?
- 思想:(一般是最佳的属性,即通过该属性很够明显的分割数据集)
- 使用一些metrics来检测根节点是否最佳,例如: information gain, information gain rate, gini Index基尼系数
- Entropy
- Entropy熵:用来检测无序性或者不确定性,熵越高,越无序不能确定。
- 低概率事件有更高信息熵,而高概率事件的信息熵较低;
-
当某件事情一定会发生时,熵为0;即一定组成的是冰块的时候,此时熵为0。
- Information gain信息增益
-
定义:熵的差值
构造决策树,选择最佳属性时,选择信息增益最大的属性
- information gain ratio
-
信息增益率避免的使用信息增益时遇到的bias问题。
- 信息增益率越大,越能作为分隔属性
-
Gini index
- 属性导致的分割越纯净(即更易于分为一个类),则gini值为0.
- 决策树优点
- 易于理解和解释
- 构造决策树只需要很少的数据
- 能够处理连续的回归和分类问题
- 内涵特征选择,即拥有信息增益,基尼系数等measures来作为选择好的属性。
- 决策树缺点
- 易于过度拟合
- 如果数据不平衡,会产生biased的树
- 不稳定(不过决策树的不稳定性能通过随机森林来避免)
- 滥用决策树不能保证产生的模型是个好的模型