香农熵,又称信息熵,熵,可以用来代表某数据集合的不一致性。熵的值越高,则代表数据集的不一致性越高。
熵与概率的关系
举例:当一个桶中有四个球,从左到右分别为红色、红色、红色、绿色。现有放回地从桶中抓球,每次抓取一个,求抓出球的顺序仍然为红、红、红、蓝的概率。
可知,第一次抓出红球的概率:0.75
第二次抓出红球的概率:0.75
第三次抓出红球的概率:0.75
第四次抓出绿球的概率:0.25
按顺序抓出四个球的概率:0.75*0.75*0.75*0.25 = 0.105
若桶中的四个球都是红色,那么我们按顺序抓出四个球的概率是1。
这个时候我们发现当桶里的球更加多样(不一致)的时候,概率更高,熵代表的值和概率对于不一致性的关系是相反的。
我们知道熵的计算公式:
从概率到熵:
我们知道
有
取均值有0.25*3.245 = 0.811
还可写成:
同时,若桶中均为红球,那么有:
更通用的公式显而易见:
当桶中有m个红球、n个绿球时,有:
至此得到熵的公式。
在决策树中,通过计算划分出的不同数据集的熵,分别与划分之前数据集的熵比较得出信息增益,得出信息增益最高的数据集的情况,此时的特征则为决策树此时创建分支的最好特征。