机器学习：01.sklearn-决策树

1 概述

1.1 决策树是如何工作的

决策树（Decision Tree）是一种非参数的有监督学习方法，它能够从一系列有特征和标签的数据中总结出决策规则，并用树状图的结构来呈现这些规则，以解决分类和回归问题。

决策树

根节点：没有进边，有出边。包含最初的，针对特征的提问。
中间节点：既有进边也有出边，进边只有一条，出边可以有很多条。都是针对特征的提问。
叶子节点：有进边，没有出边，每个叶子节点都是一个类别标签。
*子节点和父节点：在两个相连的节点中，更接近根节点的是父节点，另一个是子节点。

决策树解决的两个问题：

1）如何从数据表中找出最佳节点和最佳分枝？
2）如何让决策树停止生长，防止过拟合？

1.2 sklearn 中的决策树

sklearn中决策树的类都在”tree“这个模块之下。这个模块总共包含五个类：

主要是前三个

sklearn建模的基本流程

实例化，建立评估模型对象

通过模型接口训练模型

通过模型接口提取需要的信息

流程对应代码

from sklearn import tree #导入需要的模块
clf = tree.DecisionTreeClassifier() #实例化
clf = clf.fit(X_train,y_train) #用训练集数据训练模型
result = clf.score(X_test,y_test) #导入测试集，从接口中调用需要的信息

2. 决策树的重要参数

2.1 criterion

决策树需要找出最佳节点和最佳的分枝方法，衡量这个“最佳”的指标叫做“不纯度”。
Criterion这个参数是不纯度的衡量指标。sklearn提供了两种选择：
1）输入”entropy“，使用信息熵（Entropy）
2）输入”gini“，使用基尼系数（Gini Impurity）
sklearn实际计算的是基于信息熵的信息增益(Information Gain)，即父节点的信息熵和子节点的信息熵之差。

怎么选取参数

通常就使用基尼系数
数据维度很大，噪音很大时使用基尼系数
维度低，数据比较清晰的时候，信息熵和基尼系数没区别
当决策树的拟合程度不够的时候，使用信息熵
两个都试试，不好就换另外一个

决策树的基本流程如图

image.png

建立一棵树
1. 导入算法库和模块

from sklearn import tree
from sklearn.datasets import load_wine #datasets是一个数据库，波士顿房价，红酒等
from sklearn.model_selection import train_test_split

2. 探索数据

wine = load_wine()
wine.data.shape
wine.target
#如果wine是一张表，应该长这样：
import pandas as pd
pd.concat([pd.DataFrame(wine.data),pd.DataFrame(wine.target)],axis=1)
# concat是整合的功能 axis=1是按照列进行合并
wine.feature_names
wine.target_names

3. 分训练集和测试集

#分训练集和测试集  XXYY的顺序不能错
Xtrain, Xtest, Ytrain, Ytest = train_test_split(wine.data,wine.target,test_size=0.3) #输入数据和标签，tset的尺寸
Xtrain.shape
Xtest.shape

4. 建立模型

#建模三部曲：
##第一步：实例化
clf = tree.DecisionTreeClassifier(criterion='entropy') #criterion默认是基尼系数gini
##第二步：将数据带入训练
clf = clf.fit(Xtrain, Ytrain) #fit是训练的接口
##第三步：测试集打分
score = clf.score(Xtest, Ytest) #使用接口将测试集导入 score返回的就是预测准确度accuracy

score

5. 画分类树

#画分类树
feature_name = ['酒精','苹果酸','灰','灰的碱性','镁','总酚','类黄酮','非黄烷类酚类','花青素','颜色强度','色调','od280/od315稀释葡萄酒','脯氨酸']

import graphviz
##导入dot_data库，和使用tree模块中的export_graphviz；
dot_data = tree.export_graphviz(clf,
                                feature_names = feature_name,
                                class_names = ['琴酒','雪莉','贝尔摩德'],
                                filled = True, #filled是颜色填充
                                rounded = True) #rounded是框是否用方的

graph = graphviz.Source(dot_data) #将画的数导出
graph

分类树

6. 探索决策树

clf.feature_importances_  #可以看到上述参与决策的属性的贡献度
[*zip(feature_name,clf.feature_importances_)]  #用zip将属性名字和贡献度形成元组

[('酒精', 0.0214182877897696),
('苹果酸', 0.014284430762437107),
('灰', 0.0),
('灰的碱性', 0.0),
('镁', 0.0),
('总酚', 0.0),
('类黄酮', 0.4412147442046806),
('非黄烷类酚类', 0.0),
('花青素', 0.0),
('颜色强度', 0.1536656722998869),
('色调', 0.0),
('od280/od315稀释葡萄酒', 0.0),
('脯氨酸', 0.3694168649432258)]

**7. 控制决策树

#random_state用来控制决策树，不在进行随机选取一部分特征，从中选取不纯度相关指标最优的作为分枝用的节点的操作
clf = tree.DecisionTreeClassifier(criterion="entropy",random_state=30)  #30没有含义，只是固定决策树
clf = clf.fit(Xtrain, Ytrain) 
score = clf.score(Xtest, Ytest) #返回预测的准确度
score

2.2 random_state & splitter

random_state用来设置分枝中的随机模式的参数，默认是None; 输入任意整数，会一直长出同一棵树，让模型稳定下来。

splitter也是用来控制决策树中的随机选项的，有两种输入值:
输入”best"，决策树在分枝时虽然随机，但是还是会优先选择更重要的特征进行分枝（重要性可以通过属性feature_importances_查看）;
输入“random"，决策树在分枝时会更加随机，防止过拟合的一种方式；

clf = tree.DecisionTreeClassifier(criterion="entropy"
,random_state=30
,splitter="random" #增加决策树的随机性，防止过拟合。
)
clf = clf.fit(Xtrain, Ytrain)
score = clf.score(Xtest, Ytest)
score
import graphviz
dot_data = tree.export_graphviz(clf
,feature_names= feature_name
,class_names=["琴酒","雪莉","贝尔摩德"]
,filled=True
,rounded=True
)
graph = graphviz.Source(dot_data)
graph

得到的树更深更大

2.3 剪枝参数

在不加限制的情况下，一棵决策树会生长到衡量不纯度的指标最优，这样的决策树往往会过拟合，这就是说，它会在训练集上表现很好，在测试集上却表现糟糕,必然包含了训练样本中的噪声，并使它对未知数据的拟合程度不足。
剪枝策略对决策树的影响巨大，正确的剪枝策略是优化决策树算法的核心.

max_depth

限制树的最大深度，超过设定深度的树枝全部剪掉。实际使用时，建议从n=3开始尝试，看看拟合的效果再决定是否增加设定深度。

min_samples_leaf & min_samples_split

min_samples_leaf限定，一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf个训练样本; 从n=5开始使用。
min_samples_split限定，一个节点必须要包含至少min_samples_split个训练样本，这个节点才允许被分枝。

#参数调优 min_samples_leaf和min_samples_split
clf = tree.DecisionTreeClassifier(criterion="entropy"
,random_state=30
,splitter="random"
,max_depth=3 #代表的是分类树只能有三层
# ,min_samples_leaf=10 #代表的是子节点必须有至少10个样本
# ,min_samples_split=10 #代表的是节点必须有10个样本，才能向下进行分层
)
clf = clf.fit(Xtrain, Ytrain)
dot_data = tree.export_graphviz(clf
,feature_names= feature_name
,class_names=["琴酒","雪莉","贝尔摩德"]
,filled=True
,rounded=True
)
graph = graphviz.Source(dot_data)
graph

clf.score(Xtrain,Ytrain)
clf.score(Xtest,Ytest)

max_features & min_impurity_decrease

max_features限制分枝时考虑的特征个数，超过限制个数的特征都会被舍弃;
min_impurity_decrease限制信息增益的大小，信息增益小于设定数值的分枝不会发生.

确定最优修剪参数

超参数的学习曲线，是一条以超参数的取值为横坐标，模型的度量指标为纵坐标的曲线，它是用来衡量不同超参数取值下模型的表现的线。在我们建好的决策树里，我们的模型度量指标就是score。

import matplotlib.pyplot as plt
test = []
for i in range(10):
clf = tree.DecisionTreeClassifier(max_depth=i+1
,criterion="entropy"
,random_state=30
,splitter="random"
)
clf = clf.fit(Xtrain, Ytrain)
score = clf.score(Xtest, Ytest)
test.append(score)
plt.plot(range(1,11),test,color="red",label="max_depth")
plt.legend()
plt.show()

超参数曲线

2.4 重要属性和接口

属性是在模型训练之后，能够调用查看的模型的各种性质。对决策树来说，最重要的是feature_importances_；
接口：常用的接口有fit, score, apply, predict

#两个常用的接口； 输入的都是测试集的TEST
#apply返回每个测试样本所在的叶子节点的索引
clf.apply(Xtest)

array([13, 12, 30, 30, 21, 7, 28, 4, 12, 30, 30, 30, 13, 4, 4, 13, 13,
7, 7, 16, 16, 10, 30, 16, 4, 30, 4, 12, 30, 16, 16, 10, 12, 30,
30, 4, 16, 4, 30, 4, 8, 10, 16, 30, 4, 30, 16, 4, 4, 9, 30,
4, 16, 16], dtype=int64)

#predict返回每个测试样本的分类/回归结果
clf.predict(Xtest)

array([1, 2, 0, 0, 1, 2, 0, 2, 2, 0, 0, 0, 1, 2, 2, 1, 1, 2, 2, 1, 1, 1,
0, 1, 2, 0, 2, 2, 0, 1, 1, 1, 2, 0, 0, 2, 1, 2, 0, 2, 1, 1, 1, 0,
2, 0, 1, 2, 2, 2, 0, 2, 1, 1])

总结

七个参数：Criterion，两个随机性相关的参数（random_state，splitter），四个剪枝参数（max_depth, ，
min_sample_leaf，max_feature，min_impurity_decrease）
一个属性：feature_importances_
四个接口：fit，score，apply，predict

2.5 实例：分类树在合成数集上的表现

依次是月亮型，环形和对半分数据

分类树天生不擅长环形数据。
最擅长月亮型数据的是最近邻算法，RBF支持向量机和高斯过程；
最擅长环形数据的是最近邻算法和高斯过程；
最擅长对半分的数据的是朴素贝叶斯，神经网络和随机森林。

参考菜菜老师的sklearn课程！

最后编辑于：2021.03.03 19:51:13

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,921评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,635评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,393评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,836评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,833评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,685评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,043评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,694评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,671评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,670评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,779评论 1赞 332
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,424评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,027评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,984评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,214评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,108评论 2赞 351
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,517评论 2赞 343