- 在信息论中,期望信息越小,那么信息增益就越大,从而纯度就越高.
- ID3算法的核心思想就是以信息增益来度量属性的选择,选择分裂后信息增益最大的属性进行分裂
- 在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。
举个例子
根据天气情况决定今天打球与否:
可以看出,一共14个样例,包括9个正例和5个负例。那么当前信息的熵计算如下:
- 在决策树分类问题中,信息增益就是决策树在进行属性选择划分前和划分后信息的差值。假设利用属性Outlook来分类,那么如下图:
划分后,数据被分为三部分了,那么各个分支的信息熵计算如下:
那么划分后的信息熵为:
- 如果按照温度来划分
如果按照湿度以及刮风来划分
- 由此可以看出,属性“outlook”的信息增益最大,所以第一层利用“温度”来进行划分:
- ID3算法可用于划分标准称型数据,但存在一些问题:
1.只可以处理离散分布的数据特征
2.信息增益的方法偏向选择具有大量值的属性,也就是说某个属性特征索取的不同值越多,那么越有可能作为分裂属性,这样是不合理的;
3.没有剪枝过程,为了去除过渡数据匹配的问题,可通过裁剪合并相邻的无法产生大量信息增益的叶子节点;