系统讲解了DT 算法理论
主要内容:
1、决策树算法
2、Entroy
3、Information Gain
例图
DT 一般都是非线性分界面
sklearn 运行效果图
参数的作用
min_samples_split
一直区分到集合只有两个元素,可以忽略
min_samples_split 太小导致overfitting
Entropy
数学推倒
Information Gain
信息增益,,主要用来算多个feature时使用哪个feature 来分割界面
DT算法的计算核心一般是计算各个feature 的information gain 决定采用哪个feature 分割平面以及怎样分割。
DT 算法的优缺点:
easy use
图形化比较直观
容易overfiting