朴素贝叶斯法

朴素贝叶斯法的学习与分类
朴素贝叶斯法的参数估计

朴素贝叶斯实现

高斯朴素贝叶斯实现
使用 sklearn 实现朴素贝叶斯

朴素贝叶斯（naïve Bayes）法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对给定的输入 $x$ ，利用贝叶斯定理求出后验概率最大的输出 $y$ 。

朴素贝叶斯法的学习与分类

设输入空间 $X_i \subseteq R^n$ ，输出空间 $Y_o =\{c_1,c_2,...,c_k\}$ ， $X$ 是定义在输入空间 $X_i$ 上的随机向量， $Y$ 是定义在输出空间 $Y_o$ 上的随机变量。 $P(X,Y)$ 是 $X$ 和 $Y$ 的联合概率分布。训练数据集
$T = \{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$
由 $P(X,Y)$ 独立同分布产生。
朴素贝叶斯法通过训练数据集学习联合概率分布 $P(X,Y)$ 。
具体的，学习先验概率
$P(Y=c_k),\ \ \ \ k=1,2,...K$
条件概率分布
$P(X=x\mid Y=c_k) = P(X^{(1)}=x^{(1)},...,X^{(n)}=x^{(n)}\mid Y=c_k), \ \ \ \ \ k=1,2,...,K$
于是学习到联合概率分布 $P(X,Y)$ 。
朴素贝叶斯法对条件概率分布作了条件独立性的假设。由于这是一个较强的假设，朴素贝叶斯法也由此得名。具体地，条件独立性假设是
$\begin{array}\ P(X=x\mid Y=c_k) & = & P(X^{(1)}=x^{(1)},...,X^{(n)}=x^{(n)}\mid Y=c_k) \\ & = & \prod_{j=1}^nP(X^{(j)}=x^{(j)} \mid Y=c_k) \end{array}$
条件独立假设等于是说用于分类的特征在类确定的条件下都是条件独立的。
朴素贝叶斯法分类时，对给定的输入 $x$ ，通过学习到的模型计算后验概率分布 $P(Y＝c_k \mid X＝x)$ ，将后验概率最大的类作为 $x$ 的类输出。后验概率计算根据贝叶斯定理进行：
$\begin{array}\ P(Y=c_k \mid X=x) & = &\frac{P(X=x\mid Y=c_k)P(Y=c_k)}{\sum_kP(X=x\mid Y=c_k)P(Y=c_k)} \\ & = & \frac{P(Y=c_k)\prod_jP(X^{(j)}=x^{(j)} \mid Y=c_k)}{\sum_k P(Y=c_k)\prod_jP(X^{(j)}=x^{(j)} \mid Y=c_k)} ,& k=1,2,3,... K \end{array}$
于是贝叶斯分类器可表示为
$y = f(x) = arg\ max_{c_k} \frac{P(Y=c_k)\prod_jP(X^{(j)}=x^{(j)} \mid Y=c_k)}{\sum_k P(Y=c_k)\prod_jP(X^{(j)}=x^{(j)} \mid Y=c_k)}$
其中分母对所有 $C_k$ 都是相同的，所以
$y = arg\ max_{c_k} P(Y=c_k)\prod_jP(X^{(j)}=x^{(j)} \mid Y=c_k)$
朴素贝叶斯法将实例分到后验概率最大的类中。这等价于期望风险最小化。

朴素贝叶斯法的参数估计

先验概率的极大似然估计是
$P(Y=c_k) = \frac{\sum_{i=1}^N I(y_i=c_k)}{N}, \ \ \ \ \ k=1,2,..., K$
设第 $j$ 个特征 $x^{(j)}$ 可能取值的集合为 $\{a_{j1},a_{j2},...,a_{jS}\}$ ，条件概率的极大似然估计是
$P(X^{(j)} = a_{jq} \mid Y = c_k) = \frac{\sum_{i=1}^N I(x_i^{(j)}=a_{jq}, y_i = c_k)}{\sum_{i=1}^N I(y_i=c_k)} \\ j = 1,2,...,n; \ \ \ \ \ q = 1,2,...,S; \ \ \ \ \ k=1,2,...,K$
用极大似然估计可能会出现所要估计的概率值为0的情况。这时会影响到后验概率的计算结果，使分类产生偏差。解决这一问题的方法是采用贝叶斯估计。
具体地，条件概率的贝叶斯估计是
$P(X^{(j)} = a_{jq} \mid Y = c_k) = \frac{\sum_{i=1}^N I(x_i^{(j)}=a_{jq}, y_i = c_k) + \lambda }{\sum_{i=1}^N I(y_i=c_k) + S \lambda} \\ j = 1,2,...,n; \ \ \ \ \ q = 1,2,...,S; \ \ \ \ \ k=1,2,...,K$
同样，先验概率的贝叶斯估计是
$P(Y=c_k) = \frac{\sum_{i=1}^N I(y_i=c_k) + \lambda}{N + K\lambda}, \ \ \ \ \ k=1,2,..., K$
式中 $\lambda \ge 0$ 。等价于在随机变量各个取值的频数上赋予一个正数 $\lambda>0$ 。当 $\lambda＝0$ 时就是极大似然估计。常取 $\lambda＝1$ ，这时称为拉普拉斯平滑（Laplace smoothing）。

朴素贝叶斯实现

高斯朴素贝叶斯实现

特征分布服从高斯分布，其概率密度函数为
$P(x_i\mid y_k)=\frac{1}{\sqrt{2\pi\sigma^2_{y_k}}}\exp(-\frac{(x_i-\mu_{y_k})^2}{2\sigma^2_{y_k}})$
其中，数据期望（mean）为 $\mu$ ，方差为 $\sigma^2=\frac{\sum{(x-\mu)^2}}{N}$

import math
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from collections import Counter


class NaiveBayes(object):
    def __init__(self):
        self.model = None
    
    # 数学期望
    def mean(self, x):
        return sum(x) / float(len(x))
    
    # 标准差（方差）
    def stdev(self, x):
        mean = self.mean(x)
        return math.sqrt(sum([pow(_x - mean, 2) for _x in x]) / float(len(x)))
    
    # 高斯概率密度函数
    def gaussian_probability(self, x, mean, stdev):
        exponent = math.exp(-(pow(x - mean, 2) / (2 * pow(stdev, 2))))
        return (1 / (math.sqrt(2 * math.pi) * stdev)) * exponent
    
    # 处理训练集生成期望与方差
    def summarize(self, train):
        summaries = [(self.mean(i), self.stdev(i)) for i in zip(*train)]
        return summaries
    
    # 分别求出数学期望和标准差
    def fit(self, x, y):
        data = {}
        for f, label in zip(x, y):
            data.setdefault(label, []).append(f)
        self.model = {label: self.summarize(value) for label, value in data.items()}
        print('MODEL:%s' % self.model)
    
    # 概率计算
    def calculate_probabilities(self, data):
        probabilities = {}
        for label, value in self.model.items():
            probabilities[label] = 1
            for i in range(len(value)):
                mean, stdev = value[i]
                probabilities[label] *= self.gaussian_probability(data[i], mean, stdev)
        return probabilities
    
    # 预测类别
    def predict(self, test):
        label = sorted(self.calculate_probabilities(test).items(), key=lambda x: x[-1])[-1][0]
        return label
    
    # 计算准确率
    def score(self, x_test, y_test):
        right = 0
        for x, y in zip(x_test, y_test):
            label = self.predict(x)
            if label == y:
                right += 1
        return right / float(len(x_test))


if __name__ == '__main__':
    iris = load_iris()
    df = pd.DataFrame(iris.data, columns=iris.feature_names)
    df['label'] = iris.target
    df.columns = ['sepal length', 'sepal width', 'petal length', 'petal width', 'label']
    data = np.array(df.iloc[:100, :])
    x_data, y_data = data[:,:-1], data[:,-1]
    x_train, x_test, y_train, y_test = train_test_split(x_data, y_data, test_size=0.3)
    
    bayes =  NaiveBayes()
    bayes.fit(x_train, y_train)
    print('predict result:', bayes.predict([4.4,  3.2,  1.3,  0.2]))
    print('bayes score:', bayes.score(x_test, y_test))

运行结果

使用 sklearn 实现朴素贝叶斯

from sklearn.naive_bayes import GaussianNB, BernoulliNB, MultinomialNB
# GaussianNB: 高斯模型
# BernoulliNB: 伯努利模型
# MultinomialNB: 多项式模型
bayes = GaussianNB()
bayes.fit(x_train, y_train)
print('predict result:', bayes.predict([[4.4,  3.2,  1.3,  0.2]]))
print('bayes score:', bayes.score(x_test, y_test))

最后编辑于：2019.01.29 20:20:30

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,602评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,442评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,878评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,306评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,330评论 5赞 373
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,071评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,382评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,006评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,512评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,965评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,094评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,732评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,283评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,286评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,512评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,536评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,828评论 2赞 345

朴素贝叶斯法

朴素贝叶斯法的学习与分类

朴素贝叶斯法的参数估计

朴素贝叶斯实现

高斯朴素贝叶斯实现

使用 sklearn 实现朴素贝叶斯

推荐阅读更多精彩内容