概述
朴素贝叶斯是基于贝叶斯定理和特征条件独立假设的分类方法。首先根据特征条件独立假设计算出x,y的联合概率分布,然后利用贝叶斯定理找到后验概率最大的y。
模型
朴素贝叶斯不同于判别模型直接在特征空间中建模条件分布,而是先建模然后根据贝叶斯定理得到后验概率分布,属于生成式模型。生成式模型认为样本是这样得到的:先得到Y(类别),然后根据生成观测值X。
贝叶斯定理
其中是观察到Y后X的概率,是先验概率(不考虑任何X的影响),是Y的后验概率。
令,因此
假设可以取K个离散值,y可以取L个值,上面的模型需要估计个参数,随着n指数级增长,当n比较大时参数数量爆炸大,会出现问题:计算问题,无法在可承受的时间内有效计算;样本数不够,模型过于复杂,发生过拟合。
朴素贝叶斯使用下面假设来解决参数爆炸问题:在给定Y的情况下,特征值相互独立,即条件独立假设(如果没有观察到Y,特征值之间不一定独立)。因此模型成为
此时参数线性增长。
使用概率图模型,朴素贝叶斯可以表示成
模型学习
使用最大似然进行参数估计
数据平滑
用极大似然估计可能会出现要估计的概率值为0的情况(样本集不是全集),此时需要使用数据平滑技术来纠正概率来得到更正确的概率分布。"平滑"处理的基本思想是劫富济贫,即提高低概率,降低高概率。【宗成庆老师的统计自然语言处理一书的第5章有论述各种平滑方法的优缺点】
加法平滑(additive smoothing)
拉普拉斯平滑(Laplace Smoothing)
古德-图灵估计法(Good-Turing)
Katz Smoothing
Jelinek_mercer Smoothing
Witten-Bell Smoothing
绝对值减法(absoute discounting)
Kneser-Ney Smoothing