什么是决策树?
简而言之就是一个像树一样的模型。
从树的根就开始分叉,每次分叉都意味着一次if then的规则设定,经过若干个规则的洗礼后,最终达到叶子节点,即最终的分类结果。
决策树的本质就是一层层的if then啦
决策树面临两个主要的问题
用什么属性去分叉
万事开头难,如果优先用一个最能将数据分得开的属性作为if then的规则主体,对于整个模型而言必然是最好的。
基尼系数(gini index)是用来解决这个问题。
它衡量了用某个属性去分类后的效果,基尼系数越小,模型的纯度越高(越能分得开)
分叉后,if then的if 取值问题
这个就要在这个属性的取值区间内,进行合理的取值了,看一下取什么值能够减小最终的训练误差,应该是一个整体结构优化后的结果。