朴素贝叶斯(Naive Bayes)算法笔记(二)-scikit learn

写在前面的话：哈喽，大家早安、午安、晚安喽，欢迎大家指点，也希望我的内容可以温暖、帮助同在学习路上的人们~

正文开始~~

上一篇朴素贝叶斯(Naive Bayes)算法笔记(一)-Python 用Python基本实现了朴素贝叶斯算法的分类，这一节将基于scikit learn中的朴素贝叶斯相关模型来实现算法。

Scikit learn中实现朴素贝叶斯的方法来源于sklearn.naive_bayes 模块。在这个模块下，因为P(x_i | y)的计算方法不同，存在三种实现模块：Gaussian Naive Bayes、Multinomial Naive Bayes、Bernoulli Naive Bayes 。接下来，将分别介绍这些模块的实现。

1、Bernoulli Naive Bayes介绍

此方法主要是针对数据符合多元伯努利分布的朴素贝叶斯分类算法。该模型最明显的一个特点是他非常关注每一个特征是否出现而不仅是出现的次数，针对那种在某个计算中不出现的特征值会有惩罚。Bernoulli Naive Bayes在计算每个特征的条件概率时，基于下面的公式：

公式1 BernoulliNB模型中特征值的条件概率

Bernoulli Naive Bayes模型的使用

图2 BernoulliNB模型应用

图3 左图为原始数据，有图为BernoulliNB模型处理后的数据

相关的函数见Bernoulli Naive Bayes

2、Gaussian Naive Bayes介绍

高斯朴素贝叶斯分类算法与上面的Bernoulli Naive Bayes主要区别在于求解属性特征值的计算式：

公式2 高斯模型中特征值的条件概率

接下来看一下高斯朴素贝叶斯模型应用。

新彩蛋：筒子们，快醒醒，针对分类问题，突然发现有一个概率校准(Probability calibration of classifiers)的事情。大多数的分类模型，得到的预测结果仅有定序意义，而不能够定量（比如很多只是知道最终属于哪一类，但是并不知道属于这一类的概率有多大，类似于概率中的置信区间）。很多情况下，仅仅得到一个好的AUC值是远远不够的，我们需要得到一个准确的概率值。这就要求，模型的输出结果从定序上升为定距。有两种方法可以实现由定序到定距：普拉托变换（Platt Scaling）和保序回归(Isotonic Regression).Platt Scaling的适用条件较为严格，他仅适用于被扭曲的预测结果是sigmoid的模型；Isotonic Regression的适用条件较为宽松，它只要预测结果是单调的。不幸的是，相比Platt Scaling， Isotonic Regression更容易过拟合，尤其是当训练数据集稀少的时候。关于Platt Scaling和Isotonic Regression，可以查看概率值校准

肿么样，筒子们，你们在利用分类算法预测概率时，是否想到这些问题了？scikit-learn替你想好啦，主要是sklearn.calibration这个类里面的方法，见sklearn.calibration.CalibratedClassifierCV

辣么，接下来就看一个包含的概率校准的高斯朴素贝叶斯分类实例

1）先通过make_blobs()产生同极性的高斯分布数据，然后分开训练集和测试集，同时，为了接下来的概率校准做准备，给样本赋予随机权重，得到带有样本权重的训练数据sw_train和测试数据sw_test，代码如下：

图4 准备数据

2）接下来，利用高斯贝叶斯模型，分别考虑了没有概率校准、基于Isotonic的概率校准、基于Platt Scaling中主要的方法sigmoid方法得出的分类方法的错误率，见下图：

图5 分别计算有无概率校准的高斯朴素贝叶斯分类的错误率

3)接下来将通过以上不同方法测出的y取值绘制出来:

图6 绘图代码

图7 原始数据和不同方法得到的样本概率

看了上面的错误率以及计算出的样本概率，俺觉得概率校准很有必要，元芳，你咋看？

内心突然有点小激动，辣么，这两种不同的概率校准方法(sigmoid和Isotonic方法)，哪个更好呢，该如何与这么多的分类器算法结合？贴心的sklearn同样给出了对比Probability Calibration curves、Comparison of Calibration of Classifiers，感兴趣可以直接点进去看哈，我仅给出一些结论性的东西哈：1）如果原始数据中，存在冗余特征，那么这些特征之间就不满足朴素贝叶斯‘特征独立’的特点，因此，直接使用高斯朴素贝叶斯方法时，算法的错误率很高，此时，进行概率校准就非常重要；2）那么不同的分类器算法，该用sigmoid和Isotonic方法哪个方法呢？此时应该看分类器算法的概率校准函数类型是更接近于哪个函数的特征。比如，线性支持向量机的概率校准曲线(calibration curve)接近于sigmoid函数，所以用基于sigmoid的概率校准就非常合适；而高斯朴素贝叶斯分类器的概率校准曲线更接近于sigmoid函数曲线的转置，因此，高斯朴素贝叶斯分类器在概率校准时不适合使用sigmoid，而适合用Isotonic函数。

好哒，基于高斯朴素贝叶斯分类算法的介绍先到这里，写了好多，也思考了很多，宝宝心里苦，但宝宝继续写

3、sklearn.naive_bayes.MultinomialNB 模型介绍

这个定义中包含了很多公式，我就不一个个打出来了，具体见下图：

图8 MultinomialNB模型介绍

从定义来看，这个模型主要是用来做文本分析的，具体栗子见Out-of-core classification of text documents等等。

其实这个模型是对最初的朴素贝叶斯模型做了类似于拉普拉斯平滑。因为在比如文本分析中，很容易一些词完全不出现，为了避免出现0导致无穷等不能计算，加了一些参数因子。

好哒，今天这篇先到这里，朴素贝叶斯的内容和应用都很多，我以后深入学习的时候会与大家分享更加详细的内容和心得，希望今天的内容对大家有点帮助，也请大牛不吝赐教，能有一群一起学习、交流的人，是我的愿望，我们共同进步~~

下一篇一起学习Logistic回归啦~~

最后编辑于：2017.12.06 03:39:43

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,324评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,303评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,192评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,555评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,569评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,566评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,927评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,583评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,827评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,590评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,669评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,365评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,941评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,928评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,159评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,880评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,399评论 2赞 342

朴素贝叶斯(Naive Bayes)算法笔记(二)-scikit learn

推荐阅读更多精彩内容