在文本分类中利用信息增益进行特征提取
信息增益体现了特征的重要性,信息增益越大说明特征越重要
假设数据中有k类:
每类出现的概率是:
各类的信息熵计算公式:
对某个词汇word需要计算word在所有类别中出现的概率:
就是:出现word的文件数 除以总文件数
word不出现的概率:
就是没有出现word的文件数 除以总文件数
条件熵的计算:
这里我们用到了T表示word这个特征
其中
表示:出现word的文件的信息熵
计算方式:
其中:
表示出现word的情况下是Ci类的概率,计算方式:Ci类中出现word的文件数 除以 总的出现word的文件数
表示不出现word的条件熵
计算方式
其中
表示没有出现word的情况下是Ci类的概率,计算方式:Ci类中没有出现word的次数 除以 总类中没有出现word的次数
总的信息增益计算公式
信息熵体现了信息的不确定程度,熵越大表示特征越不稳定,对于此次的分类,越大表示类别之间的数据差别越大
条件熵体现了根据该特征分类后的不确定程度,越小说明分类后越稳定
信息增益=信息熵-条件熵,越大说明熵的变化越大,熵的变化越大越有利于分类