剩余

文章含有“program”的概率各个选集中调查如下:

p(Y1=1|X=dev) = 0.271

p(Y1=1|X=admin) = 0.136

条件概率p(Y1=1|X=dev) 是「dev选集中,含有“program”的概率」。同理,X=admin 也是一样。

确实p(Y1=1|X=dev) > p(Y1=1|X=admin) 成立。

同理,随机变量 Y2 作为「文章中含有“application”」,试求它的概率。

p(Y2=1|X=dev) = 0.172

p(Y2=1|X=admin) = 0.523

这样就可以判断「含有“application”,不含“program”的文章」术语哪个类别。

虽已知满足这个条件的随机变量是 Y1=0, Y2=1 ,表示类别的随机变量X还是未知的。这里,可以判断:如果求出p(X=dev|Y1=0, Y2=1) 和 p(X=admin|Y1=0, Y2=1) ,概率值大的一方被作为「可信用的 X 值」。

写文章时,先写完内容再确定类别,是很少见的。总之,p(X|Y1, Y2)就是事后概率,计算出该值就可以推断出文章中隐藏的信息 (例:「文章是为了发表在dev文集而写的!」)

这一系列的过程就是基于统计的机器学习的一个典型思考方式。

虽然得到了使用贝叶斯公式计算出事后概率的公式,但是使用乘法定理把联合概率展开为2个式子是不是更容易理解一些呢?

p(X, Y1,Y2)

= p(X|Y1,Y2) p(Y1, Y2)

= p(Y1,Y2|X) p(X)

由第2式和第3式可以推导出p(X|Y1, Y2)等于下式:


公式

想一下式子的右边可以计算出来吗?

关于分子中的p(Y1, Y2|X),假定赋值给X时Y1, Y2是独立。(也叫做「条件独立」),从刚才的论证可得,p(Y1, Y2|X)= p(Y1|X) p(Y2|X)成立。

p(X)和p(Y1|X)已知时,式子的右侧可以计算出来。

至于分母的p(Y1, Y2),可以通过把分子当作「随机变量X的边缘化」计算出来。

具体讲,利用乗法定理中p(Y1, Y2|X) p(X) = p(X, Y1, Y2),然后使用加法定理消去X后,变成p(Y1, Y2)。想起来最开始说的「机器学习中反复使用加法定理和乗法定理」「加法定理也叫做边缘化」了吗?

但是,因为分母的p(Y1, Y2)中并没有X(与X无关),如果「想求出p(X|Y1, Y2)最大的X」,仅仅比较分子就足够了。

最后,「包含“application”,不包含“program”的文章」,也就是计算Y1=0, Y2=1两种情况的事后概率。

想分别求出各个X的值,先求出分子。

p(Y1=0,Y2=1|X=dev) p(X=dev)

= (1 - 0.271) *0.172 * 0.652

= 0.082

p(Y1=0,Y2=1|X=admin) p(X=admin)

= (1 - 0.136) *0.523 * 0.348

= 0.157

把分母边缘化后得到的,就是2个值得和。

p(Y1=0,Y2=1)

= p(X=dev, Y1=0,Y2=1) + p(X=admin, Y1=0, Y2=1)

= 0.082 + 0.157

= 0.239

接着,事后概率如下所示:

p(X=dev|Y1=0,Y2=1)

= p(Y1=0,Y2=1|X=dev) p(X=dev) / p(Y1=0, Y2=1)

= 0.082 / 0.239

= 0.343

p(X=admin|Y1=0,Y2=1)

= p(Y1=0,Y2=1|X=admin) p(X=admin) / p(Y1=0, Y2=1)

= 0.157 / 0.239

= 0.657

哪个才是更适合的分类,已经明白了吧?

这里的「基于条件概率的独立性」被称作「条件独立」或者「朴素贝叶斯」「单纯贝叶斯」。

当然,这里的「条件独立」是假设的,并不是真的独立。尽管做了如此大胆的假设,朴素贝叶斯还是有很高的精准度的。通过简单计算并得到好的结果的就是「好的模型」。

实际上,朴素贝叶斯在文本分类和信用过滤中经常使用。朴素贝叶斯不仅限与用在类别和单词种类为2的情况,更普通的情况也适用。

下篇为实践课程,以朴素贝叶斯为题材,动手实现概率的计算。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,968评论 6 482
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,601评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,220评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,416评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,425评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,144评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,432评论 3 401
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,088评论 0 261
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,586评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,028评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,137评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,783评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,343评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,333评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,559评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,595评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,901评论 2 345

推荐阅读更多精彩内容

  • 这一节是讲解关于机器学习中的概率的。 概率是基于统计的机器学习中最重要的基础知识。由于从零开始讲解概率是有点不现实...
    小猪刚刚1993阅读 899评论 1 2
  • 来源: http://www.douban.com/group/topic/14820131/ 调整变量格式: f...
    MC1229阅读 6,907评论 0 5
  • MCMC和Gibbs Sampling 1.随机模拟 随机模拟又名蒙特卡罗方法,蒙特卡罗方法的源头就是当年用...
    wlj1107阅读 6,245评论 3 6
  • 首先重点讲解中国剩余定理,举例:一个数x除d1余r1,除d2余r2,除d3余r3,那么,求这个数的最小值 。解答:...
    碧影江白阅读 2,147评论 0 2
  • 10岁时,你无忧无虑奔跑在乡间的小路上;15岁时,你因理想与现实的差距苦闷着;18岁时,你因自己落后的成绩哭泣着;...
    胡喜平阅读 265评论 0 2