A Programmer's Guide to Data Mining(六)

Chapter 6 Naïve Bayes and Probability Density Functions
This chapter introduces the Naïve Bayes Classifier.

Contents

  • lazy and eager learners
  • a probability refresher
  • Conditional probabilities: a shopping cart example
  • Bayes Theorem
  • P ython code for Naïve Bayes
  • The Congressional Voting Records data set
  • Gaussian distributions and the probability density function.
  • Probability density function: the Python implementation
  • How a recommendation system works.

The PDF of the Chapter

Python code

Data

朴素贝叶斯和概率密度函数

朴素贝叶斯

我们再次回顾下之前的运动员那个例子. 假设我现在问你身高6.8inch, 体重207pds的Brittney Griner 应该是练习什么项目的, 体操,马拉松, 还是篮球?我想你可能会脱口而出"篮球", 如果我继续问, 你有多大把握?我猜你会给出百分之八九十的肯定吧.

现在我再问你身高6.1inch, 体重176pds的Heather Zurich(图6.1)是玩啥的? 反正我自己是不能给出个肯定的答案.你可能会回答, 篮球.然后你自己也不太肯定, 也许是个跑马拉松的高个子呢!这也不无可能.


Heather Zurich.jpg

最后我再问你5.4inch高, 95pds重的Yumiko Hara是练什么的?你会大概会说, 体操.但是你不太确定,因为这样的身材跑马拉松也是可以.

只是用最近邻算法是很难量化一个分类的确定性或者说可能性(得到概率).但是贝叶斯分类方法就可以做到不但能完成分类工作,还能同时得到对应分类的概率.这个运动员有80%可能是打篮球, 这个病人有40%的可能性会在未来5年内患糖尿病,Las Cruces24小时内会下雨的概率是10%,等等.

最近邻理论又叫"惰性学习".当我们给基于该算法的分类器一个训练数据集, 它仅仅是做基本的特征保存处理.在遍历整个训练数据集时,每一次分类都是相互独立的一个实例.如果我们给一个有100,000音乐信息的训练数据,它要做100,000相互独立的分类处理.

贝叶斯方法又叫"期望学习".当"期望学习"得到一个训练数据,它会立即分析整个数据,并建立一个模型.要分类一个实例数据时,它会用这个模型来做出分类判断."期望学习"一般都会笔"惰性学习"处理得快些.

贝叶斯方法的两个特性或者优点就是,能够量化分类的可能性(概率)和是"期望学习".

概率

假设你已经对概率的基础知识有所了解.抛一枚硬币,正面朝上的概率是多少?六面体的骰子,摇出"1"的概率又是多大呢?这些都是比较简单的事件.再举个个例子,如果我告诉你最近我交了个19岁朋友,请问是女生的概率多大?毫不犹豫,你会回答50%.这些都是先验概率的例子.事件h的概率记作---P(h).

  • 抛硬币:
    P(正面朝上) = 0.5
  • 抛骰子正面数字:
    P(1) = 1/6
  • 新交的朋友
    P(女生) = 0.5

如果我再给你一条关于这个19岁少年的信息:Frank Lloyd Wright School of Architecture 学校的学生.你马上到Google上去搜索,发现这所学校的女生占86%,现在你应该会修改你的答案为86%.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 196,302评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,563评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 143,433评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,628评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,467评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,354评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,777评论 3 387
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,419评论 0 255
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,725评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,768评论 2 314
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,543评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,387评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,794评论 3 300
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,032评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,305评论 1 252
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,741评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,946评论 2 336

推荐阅读更多精彩内容