Outline
1.算法思想
2.概念解释
3.Sklearn Code
Part 1 算法思想
- 一堆数据,依次根据不同的item依次进行展开分支,如下图所示。关键点在于:什么顺序才最优(根据best-gain优先的原则,算法是贪婪的)
一棵树栽培要做的事情(functions):
1.计算gini impurity和information gain
2.find best-gain(对feature进行循环,找到最大best-gain)
3.然后split决策树的一些限制点:
1.不总是全局最优,即实时存在更优的树的展开,原因在于算法是贪婪的(总是按照最大best-gain展开)
2.易过拟合,实际与算法存在差距。可通过裁剪的方式,后续可以继续深入学习和了解
- 决策树的构建过程是一个递归过程。函数存在三种返回状态:
(1)当前节点包含的样本全部属于同一类别,无需继续划分;
(2)当前属性集为空或者所有样本在某个属性上的取值相同,无法继续划分;
(3)当前节点包含的样本集合为空,无法划分。\
Part 2 概念解释
- Gini impurity的计算:
第一幅图:
第二幅图:结果很明显为0
- Weighted Information Gain的定义:
- 针对以上内容的补充:
1.信息增益
信息熵是一种衡量数据混乱程度的指标,信息熵越小,则数据的“纯度”越高
其中pk代表了第k类样本在D中占有的比例。
一般的信息增益越大,则意味着使用特征a来进行划分的效果越好。
2.基尼指数
基尼指数反映了从数据集D中随机抽取两个的类别标记不一致的概率。
使用特征a对数据集D划分的基尼指数定义为上。
Part 3 Sklearn Code
from cars import training_points, training_labels, testing_points, testing_labels
from sklearn.tree import DecisionTreeClassifier
#print(training_points[0])
#print(training_labels[0])
classifier = DecisionTreeClassifier()
classifier.fit(training_points, training_labels)
print(classifier.score(testing_points, testing_labels))
print(classifier.predict(testing_points))
- 关于重要参数的说明:
1.criterion
Criterion这个参数正是用来决定模型特征选择的计算方法的。sklearn提供了两种选择:
- 输入”entropy“,使用信息熵(Entropy)
- 输入”gini“,使用基尼系数(Gini Impurity)
2.random_state & splitter
random_state用来设置分枝中的随机模式的参数,默认None,在高维度时随机性会表现更明显。splitter也是用来控制决策树中的随机选项的,有两种输入值,输入”best",决策树在分枝时虽然随机,但是还是会优先选择更重要的特征进行分枝(重要性可以通过属性feature_importances_查看),输入“random",决策树在分枝时会更加随机,树会因为含有更多的不必要信息而更深更大,并因这些不必要信息而降低对训练集的拟合。
3.max_depth
限制树的最大深度,超过设定深度的树枝全部剪掉。这是用得最广泛的剪枝参数,在高维度低样本量时非常有效。决策树多生长一层,对样本量的需求会增加一倍,所以限制树深度能够有效地限制过拟合。
4.min_samples_leaf
min_samples_leaf 限定,一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf个训练样本,否则分枝就不会发生,或者,分枝会朝着满足每个子节点都包含min_samples_leaf个样本的方向去发生。一般搭配max_depth使用,在回归树中有神奇的效果,可以让模型变得更加平滑。这个参数的数量设置得太小会引起过拟合,设置得太大就会阻止模型学习数据。