机器学习之决策树

Outline

1.算法思想

2.概念解释

3.Sklearn Code

Part 1 算法思想

一堆数据，依次根据不同的item依次进行展开分支，如下图所示。关键点在于：什么顺序才最优（根据best-gain优先的原则，算法是贪婪的）

1.gif

一棵树栽培要做的事情（functions）：
1.计算gini impurity和information gain
2.find best-gain（对feature进行循环，找到最大best-gain）
3.然后split
决策树的一些限制点：

1.不总是全局最优，即实时存在更优的树的展开，原因在于算法是贪婪的（总是按照最大best-gain展开）
2.易过拟合，实际与算法存在差距。可通过裁剪的方式，后续可以继续深入学习和了解

决策树的构建过程是一个递归过程。函数存在三种返回状态：
（1）当前节点包含的样本全部属于同一类别，无需继续划分；
（2）当前属性集为空或者所有样本在某个属性上的取值相同，无法继续划分；
（3）当前节点包含的样本集合为空，无法划分。\

Part 2 概念解释

Gini impurity的计算：

第一幅图：

2.png

第二幅图：结果很明显为0

3.png

Weighted Information Gain的定义：

4.png

针对以上内容的补充：

1.信息增益

信息熵是一种衡量数据混乱程度的指标，信息熵越小，则数据的“纯度”越高

5.jpeg

其中pk代表了第k类样本在D中占有的比例。

6.jpeg

一般的信息增益越大，则意味着使用特征a来进行划分的效果越好。

2.基尼指数

基尼指数反映了从数据集D中随机抽取两个的类别标记不一致的概率。

7.jpeg

使用特征a对数据集D划分的基尼指数定义为上。

8.jpeg

Part 3 Sklearn Code

from cars import training_points, training_labels, testing_points, testing_labels
from sklearn.tree import DecisionTreeClassifier

#print(training_points[0])
#print(training_labels[0])
classifier = DecisionTreeClassifier()
classifier.fit(training_points, training_labels)
print(classifier.score(testing_points, testing_labels))
print(classifier.predict(testing_points))

关于重要参数的说明：

1.criterion
Criterion这个参数正是用来决定模型特征选择的计算方法的。sklearn提供了两种选择：

输入”entropy“，使用信息熵（Entropy）
输入”gini“，使用基尼系数（Gini Impurity）

2.random_state & splitter
random_state用来设置分枝中的随机模式的参数，默认None，在高维度时随机性会表现更明显。splitter也是用来控制决策树中的随机选项的，有两种输入值，输入”best"，决策树在分枝时虽然随机，但是还是会优先选择更重要的特征进行分枝（重要性可以通过属性feature_importances_查看），输入“random"，决策树在分枝时会更加随机，树会因为含有更多的不必要信息而更深更大，并因这些不必要信息而降低对训练集的拟合。

3.max_depth
限制树的最大深度，超过设定深度的树枝全部剪掉。这是用得最广泛的剪枝参数，在高维度低样本量时非常有效。决策树多生长一层，对样本量的需求会增加一倍，所以限制树深度能够有效地限制过拟合。

4.min_samples_leaf
min_samples_leaf 限定，一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf个训练样本，否则分枝就不会发生，或者，分枝会朝着满足每个子节点都包含min_samples_leaf个样本的方向去发生。一般搭配max_depth使用，在回归树中有神奇的效果，可以让模型变得更加平滑。这个参数的数量设置得太小会引起过拟合，设置得太大就会阻止模型学习数据。