目录
1、决策树(Decision Tree)原理
2、Sklearn DecisionTreeClassifiter 参数详解
3、Sklearn DecisionTreeRegresion 参数详解
4、总结
1、决策树(Decision Tree)原理
2、DecisionTreeClassifiter核心参数详解:
3、DecisionTreeRegressor核心参数详解:
回归树参数:与分类树基本相同,比较值得一提的是criterion。在回归树中criterion衡量分枝质量的指标有三种:
1、输入“mse”使用均方误差mean squared err(MSE),父节点和子节点之间的均方误差的差额将被用来作为特征选择的标准,这种方法通过使用叶子节点的均值来最小化L2损失。
2、输入“friedman_mse”使用费尔德曼均方误差,这种指标使用费尔德曼针对潜在分枝中的问题改进后的均方误差。
3、输入“mae”使用绝对平均误差MAE(mean absolute error),这种指标使用叶节点的中值来最小化L1损失。
,其中N是样本数量,i是每一个数据样本,fi是模型回归出的数值,yi是样本点i实际的数值标签。因此MSE的本质是回归值与真实值的差异。在回归树中,MSE不仅是最优的分枝指标,也是最常用的衡量回归树回归质量的指标。
回归树接口:
score:返回的是R平方,并不是MSE。R平方定义如下:
,,,
其中u是残差平方和(MSE*N),v是总平方和,N是样本数量,i是每个样本,fi是模型回归出的值,yi是样本点i的实际数值标签。y帽是真实数值标签的平均数。
R2可以为正也可以为负,当残差平方和远远大于模型总平方和时,模型非常糟糕,R2为负;但MSE永远为正。但Sklearn当中使用均方误差作为评判标准时,却是计算“负均方误差”(neg_mean_squared_error)以负数表示。其实就是MSE前加了个负号。
总结:本文详细介绍了决策树创建过程以及决策树的工作原理,同时对sklearn中DecisionTreeClassifiter和DecisionTreeRegressor核心参数、属性、接口进行了介绍。