特征F1出现时,样本被分为C类的概率。
先验概率:P(C) 从训练样本计算C类所占的比例
证据:P(F1) 从训练样本集中统计出现F1样本的概率
似然估计:已知样本集为C类,求出出现特征F1的概率
对于多个特征,贝叶斯公式:
此时,求似然值就比较困难。
引入朴素贝叶斯概念,我们假设多个特征F1,F2..Fn相互独立,则有:
分子:P(C)P(F1|C)P(F2|C)...P(Fn|C)
对于贝叶斯分类来说,P(Ci|F1..Fn)与P(Cj|F1...Fn)比较大小,分母一样,所以P(F1...Fn)不用计算。
当计算P(Fk|Ci)时,如果Fk在训练集中没有出现过,则P(Fk|Ci)=0,这是不允许的,所以引入拉普拉斯平滑,计算P(Fk|Ci)时,分子+1,分母加上n(n为Fi的个数)。
平滑技术:增加为出现词的概率,减少已出现词的概率。
参考文章: