决策树
熵:
条件熵:
信息增益:
信息增益比:
CHAT算法基尼系数:
基尼指数Gini(D)表示集合D的不确定性,基尼指数Gini(D,A)表示经A=a分割后集合D的不确定性。基尼指数值越大,样本集合的不确定性也就越大,这一点跟熵相似,选择最小的作为最优特征。
贝叶斯
条件概率:
S = 1000
P(A) 种疾病在人群中的发病率概率:0.001
P(B|A) 实际得病检测出得病的准确概率:0.99
检测误报率为0.05,即,无病检测得病概率:0.05
P(B) 检测得病概率:0.0010.99+0.05(1-0.001)
P(A|B) 检测得病,实际发病概率:P(A)*P(B|A)/P(B) 大约为:0.019