朴素贝叶斯分类器

贝叶斯公式

联合概率 $P(X=x, Y=y)$ 是指$X$ 取值为$x$ 且$Y$ 取值为$y$ 的概率，显然

$$
P(X,Y) = P(Y|X) \cdot P(X) = P(X|Y) \cdot P(Y)
$$

于是得到贝叶斯公式：
$$
P(X|Y) = \frac{P(X) \cdot P(Y|X)}{P(Y)}
$$

朴素贝叶斯分类器的使用

这里举一个简单的例子，来说明贝叶斯分类器算法的过程。现在假设某公司要发布某种产品，在发布产品前，先进行了用户调查，获得如下信息：

性别(A)	年龄(B)	婚姻状况(C)	是否购买(X)
M	小	未婚	Yes
F	中	已婚	No
F	小	未婚	Yes
M	大	已婚	No
M	中	离异	No
M	中	未婚	Yes
F	大	已婚	No
M	大	未婚	No
F	大	未婚	No
F	中	已婚	No

现在来预测用户$X(A=F,B=中,C=离异)$ 是否会购买此产品？
$$
P(X=Yes|A=F,B=中,C=离异) = \frac{P(X=Yes)}{P(A=F,B=中,C=离异)} \cdot P(A=F,B=中,C=离异|X=Yes)
$$
其中令 $\frac{1}{P(A=F,B=中,C=离异)}=\Delta$ , 而
$$
P(A=F,B=中,C=离异|X=Yes) = P(A=F|Yes) \cdot P(B=中|Yes) \cdot P(C=离异|Yes)
$$
现在分别计算购买相应的概率：
$$
P(X=Yes) = \frac{3}{10} \
P(A=F|Yes) = \frac{1}{3} \
P(B=中|Yes) = \frac{1}{3} \
P(C=离异|Yes) = 0 \
P(X=Yes|A=F,B=中,C=离异) = \Delta \cdot \frac{3}{10} \cdot\frac{1}{3}\cdot\frac{1}{3}\cdot 0=0
$$
不购买的相应概率：
$$
P(X=No) = \frac{7}{10} \
P(A=F|No) = \frac{4}{7} \
P(B=中|No) = \frac{3}{7} \
P(C=离异|NO) = \frac{1}{6} \
P(X=No|A=F,B=中,C=离异) = \Delta \cdot \frac{7}{10} \cdot\frac{4}{7} \frac{3}{7} \cdot \frac{1}{6}=\frac{1}{35}\Delta
$$
于是预测这个用户不会购买次产品。

朴素贝叶斯分类器

朴素贝叶斯的基本思想是：对于给定的待分类项，求出在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。

基本假设

朴素贝叶斯分类器有一个假设：给定类标号$y_k$，各属性之间条件独立。条件独立假设表述如下：
$$
P(X|Y=y_k) = \Pi_{i+1} ^{m} P(x_i|Y=y_k)
$$
其中，每个属性集$X={x1,x2,⋯,x_m}$包含m个属性。

计算流程

对于待分类项$C={y_1, y_2, \cdots, y_n }$ ，属性集合$X={x1,x2,⋯,x_m}$
分别计算条件概率$P(y_k|X)$ 其中 $k=1,2, \cdots, n$
$P(y_k |X) = args(k) \max { P(y_1|X), P(y_2|X), \cdots, P(y_n|X)} $ , 则 $X \in y_k$

计算属于各个类的概率
$$
P(y_k|X) = \frac{P(X|y_k) \cdot P(y_k)}{P(X)} = \frac{1}{P(X)} \cdot P(y_k) \cdot \Pi_{i=1} ^m P(x_i|y_k)
$$
对于所有的类别$Y$,$P(X)$是固定的，一般直接忽略，只需要比较分子。
- 当特征属性为离散值时，可以通过统计训练样本中各个划分在每个类别中出现的频率来估计；
- 当特征属性为连续属性时，可以假设连续变量服从某种概率分布，然后使用训练数据估计分布的参数。高斯分布（也称正态分布）常被用来表示连续属性的类条件概率分布。该分布有两个参数，均值$\mu$和方差$\sigma^2$。对每个类，属性$x_i$的类条件概率等于：
  $$
  P(x_i|y_k) = \frac{1}{\sqrt{2\pi}\sigma_{ik}} \exp\left[-\frac{(x_i - \mu_{ik})^2}{2\sigma2_{ik}} \right]
  $$
  参数$\mu_{ik}$可以用类$y_k$的所有训练记录关于$x_i$的样本均值$\overline x$来估计，参数$\sigma^{2_{ik}$可以用这些训练记录的样本方差$s}2$来估计。

朴素贝叶斯分类完整案例

数据介绍

本文使用的测试问题是“皮马印第安人糖尿病问题”。这个问题包括768个对于皮马印第安患者的医疗观测细节，记录所描述的瞬时测量取自诸如患者的年纪，怀孕和血液检查的次数。所有患者都是21岁以上（含21岁）的女性，所有属性都是数值型，而且属性的单位各不相同。每一个记录归属于一个类，这个类指明以测量时间为止，患者是否是在5年之内感染的糖尿病。如果是，则为1，否则为0。
```
6,148,72,35,0,33.6,0.627,50,1
1,85,66,29,0,26.6,0.351,31,0
8,183,64,0,0,23.3,0.672,32,1
1,89,66,23,94,28.1,0.167,21,0
0,137,40,35,168,43.1,2.288,33,1
```
字段说明：
```
     1. Number of times pregnant
    2. Plasma glucose concentration a 2 hours in an oral glucose tolerance test
    3. Diastolic blood pressure (mm Hg)
    4. Triceps skin fold thickness (mm)
    5. 2-Hour serum insulin (mu U/ml)
    6. Body mass index (weight in kg/(height in m)^2)
    7. Diabetes pedigree function
    8. Age (years)
    9. Class variable (0 or 1)
```
教程分为如下几步

1.处理数据：从CSV文件中载入数据，然后划分为训练集和测试集。

2.提取数据特征：提取训练数据集的属性特征，以便我们计算概率并做出预测。

3.单一预测：使用数据集的特征生成单个预测。

4.多重预测：基于给定测试数据集和一个已提取特征的训练数据集生成预测。

5.评估精度：评估对于测试数据集的预测精度作为预测正确率。

6.合并代码：**使用所有代码呈现一个完整的、独立的朴素贝叶斯算法的实现。

代码最终实现

# Example of Naive Bayes implemented from Scratch in Python
# python 2.7
import csv
import random
import math


def loadCsv(filename):
    lines = csv.reader(open(filename, "rb"))
    dataset = list(lines)
    for i in range(len(dataset)):
        dataset[i] = [float(x) for x in dataset[i]]
    return dataset


def splitDataset(dataset, splitRatio):
    trainSize = int(len(dataset) * splitRatio)
    trainSet = []
    copy = list(dataset)
    while len(trainSet) < trainSize:
        index = random.randrange(len(copy))
        trainSet.append(copy.pop(index))
    return [trainSet, copy]


def separateByClass(dataset):
    separated = {}
    for i in range(len(dataset)):
        vector = dataset[i]
        if (vector[-1] not in separated):
            separated[vector[-1]] = []
        separated[vector[-1]].append(vector)
    return separated


def mean(numbers):
    return sum(numbers) / float(len(numbers))


def stdev(numbers):
    avg = mean(numbers)
    variance = sum([pow(x - avg, 2) for x in numbers]) / float(len(numbers) - 1)
    return math.sqrt(variance)


def summarize(dataset):
    summaries = [(mean(attribute), stdev(attribute)) for attribute in zip(*dataset)]
    del summaries[-1]
    return summaries


def summarizeByClass(dataset):
    separated = separateByClass(dataset)
    summaries = {}
    for classValue, instances in separated.iteritems():
        summaries[classValue] = summarize(instances)
    return summaries


def calculateProbability(x, mean, stdev):
    exponent = math.exp(-(math.pow(x - mean, 2) / (2 * math.pow(stdev, 2))))
    return (1 / (math.sqrt(2 * math.pi) * stdev)) * exponent


def calculateClassProbabilities(summaries, inputVector):
    probabilities = {}
    for classValue, classSummaries in summaries.iteritems():
        probabilities[classValue] = 1
        for i in range(len(classSummaries)):
            mean, stdev = classSummaries[i]
            x = inputVector[i]
            probabilities[classValue] *= calculateProbability(x, mean, stdev)
    return probabilities


def predict(summaries, inputVector):
    probabilities = calculateClassProbabilities(summaries, inputVector)
    bestLabel, bestProb = None, -1
    for classValue, probability in probabilities.iteritems():
        if bestLabel is None or probability > bestProb:
            bestProb = probability
            bestLabel = classValue
    return bestLabel


def getPredictions(summaries, testSet):
    predictions = []
    for i in range(len(testSet)):
        result = predict(summaries, testSet[i])
        predictions.append(result)
    return predictions


def getAccuracy(testSet, predictions):
    correct = 0
    for i in range(len(testSet)):
        if testSet[i][-1] == predictions[i]:
            correct += 1
    return (correct / float(len(testSet))) * 100.0


def main():
    filename = 'pima-indians-diabetes.data.csv'
    splitRatio = 0.67
    dataset = loadCsv(filename)
    trainingSet, testSet = splitDataset(dataset, splitRatio)
    print('Split {0} rows into train={1} and test={2} rows').format(len(dataset), len(trainingSet), len(testSet))
    # prepare model
    summaries = summarizeByClass(trainingSet)
    # test model
    predictions = getPredictions(summaries, testSet)
    accuracy = getAccuracy(testSet, predictions)
    print('Accuracy: {0}%').format(accuracy)


main()
>>> Split 768 rows into train=514 and test=254 rows
Accuracy: 76.3779527559%

机器学习代码实现

# python 3.5 or later
from sklearn.naive_bayes import GaussianNB
import csv
import numpy as np


def read_csv(filename: str) -> np.ndarray:
    """
    read csv 
    :return: array
    """
    data = []
    lines = csv.reader(open(filename, "r"))
    for line in lines:
        data.append(list(map(float, line)))

    return np.array(data)


def generate_sample(data: np.ndarray) -> (np.ndarray, np.ndarray):
    """
    构造训练集和验证集
    :param data: 样本数据
    :return : (训练集，测试集)
    """
    ratio = 0.67
    index = round(data.shape[0] * ratio)
    return data[:index], data[index:]


def main():
    data_csv = "pima-indians-diabetes.data.csv"
    sample = read_csv(data_csv)
    sample_, test_ = generate_sample(sample)
    print("训练数据%s条,测试数据%s条" % (sample_.shape[0], test_.shape[0]))
    gnb = GaussianNB()
    gnb.fit(sample_[:, :-1], sample_[:, -1])
    print("score is: %.2f%%" % (gnb.score(test_[:, :-1], test_[:, -1]) * 100))


if __name__ == '__main__':
    main()
>>>  训练数据515条,测试数据253条
   score is: 77.08%

参考文档
[1]: 机器学习之用Python从零实现贝叶斯分类器 http://python.jobbole.com/81019/
[2]: 贝叶斯分类器 http://funhacks.net/2015/05/18/Bayesian-classifier/

最后编辑于：2017.12.07 02:34:25

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 205,236评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,867评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,715评论 0赞 340
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,899评论 1赞 278
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,895评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,733评论 1赞 283
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,085评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,722评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,025评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,696评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,816评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,447评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,057评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,009评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,254评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,204评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,561评论 2赞 343

朴素贝叶斯分类器