朴素贝叶斯分类

贝叶斯分类是机器学习中一个重要的分类算法,由于其简单高效,所以在实战中非常受欢迎。

本文将介绍贝叶斯分类中两个比较典型的算法——朴素贝叶斯与贝叶斯信念网络。

** 由于简书对数学公式的支持不太好,所以很多公式显示不出来,感兴趣的同学可以移步至我的CSDN文章地址:http://blog.csdn.net/qq756161569/article/details/72965440 **

基础知识

在开始介绍算法之前,我们先温习几个概率论上几个基础知识。

1.条件概率:P(A|B)

表示在B发生的情况下A发生的概率。

例如:在一堆棋子中有方形和圆形两种,方形有红色和白色,圆形有黄色和绿色。问,在已知一颗棋子是方形的情况下该棋子是红色的概率是多少。

那么这个问题就可以表示成——P(棋子是红色|方形棋子)

2.先验概率

是在获得某些信息或者依据前,对 P 的不确定性进行猜测。

例如:下雨之前会刮风,那么在没有观察是否刮风之前求下雨的概率就是先验概率。

3.后验概率

"后验"在这里意思是,考虑相关事件已经被检视并且能够得到一些信息。比如在判断到刮风的情况下再预测下雨的概率。

后验概率包含了先验信息以及观测样本数据提供的后验信息,对先验概率进行了修正,更接近真实情况。

贝叶斯定理

$$ P(A|B) = \frac{P(B|A)P(A)}{P(B)} $$

其中P(A|B)是在B发生的情况下A发生的可能性。

在贝叶斯定理中,每个名词都有约定俗成的名称:

•   P(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率。
•   P(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率。
•   P(A)是A的先验概率(或边缘概率)。之所以称为"先验"是因为它不考虑任何B方面的因素。
•   P(B)是B的先验概率或边缘概率。

按这些术语,贝叶斯定理可表述为:
后验概率 = (相似度*先验概率)/标准化常量

也就是说,后验概率与先验概率和相似度的乘积成正比。

另外,比例P(B|A)/P(B)也有时被称作标准相似度(standardised likelihood),贝叶斯定理可表述为:

后验概率 = 标准相似度*先验概率

朴素贝叶斯

在实际应用中,特征值可能会包含多个。比如,给定一个人的身高、体重、肤色……等等特征,求这个人是女生的概率。

那么,概率表达式可以表示为:

$$ P(女生|F_1,F_2,\underbrace{\ldots}_{\rm n个特征} ,F_n)$$

那么根据贝叶斯定理,这个概率表达式就可以表示成:

$$ \frac{P(F_1,F_2,\underbrace{\ldots}{\rm n个特征} ,F_n|女生)P(女生)}{P(F_1,F_2,\underbrace{\ldots}{\rm n个特征} ,F_n)} $$

由于P(女生)和P(F)的概率都是常数,所以我们只需要关注: $$P(F_1,F_2,\underbrace{\ldots}_{\rm n个特征} ,F_n|女生)$$

要计算上面这个条件概率,成本是非常高的。为了简化计算,我们有了一个"朴素"的假设——特征F向量的所有属性彼此独立。(所以该算法才被称为朴素贝叶斯)

有了朴素的假设,就有了以下等式:

$$P(F_1,F_2,\underbrace{\ldots}{\rm n个特征} ,F_n|女生)=\prod{i=1}^nP(F_i|女生)$$

所以我们只需要挨个计算"在已知是女生情况下出现特征$ F_i $的概率,并求出它们的乘积即可。

最后要说明的是,我们在处理连续型特征时,我们一般会假设该属性服从高斯分布。

$$ P(F_i|女生)=\frac{1}{\sigma\sqrt{2\pi}} e-\frac{(x-\mu)2}{2\sigma^2}$$

我们可以使用高斯分布函数去计算条件概率的值。

到这里,关于朴素贝叶斯的内容就已经讲完了。但朴素贝叶斯也有其不足的地方,那就是"朴素"。

在实际的应用中,所有特征值不太可能完全独立,所以朴素贝叶斯在很多时候表现并不是太好。
所以,在特征选项存在明显依赖关系时,我们使用贝叶斯分类的效果往往不太理想,所以我将在下一章介绍基于特征依赖的贝叶斯分类——贝叶斯信念网络

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,236评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,867评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,715评论 0 340
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,899评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,895评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,733评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,085评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,722评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,025评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,696评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,816评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,447评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,057评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,009评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,254评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,204评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,561评论 2 343

推荐阅读更多精彩内容