03-naive bayes

预备知识

条件概率

考虑这么一个问题有两个箱子A,B,
A中有2个红球,2个白球 A=[r,r,w,w]
B中有3个红球,2个白球 B=[r,r,r,w,w]
总共有4个红球5个白球
问题1: 如果从这9个球中取一个球取到红球,白球概率分别为多少?
  显然:$p(r) = \frac{5}{9}$, $p(w) = \frac{4}{9}$

问题2: 如果已知球取自A箱取到红球概率为多少?
  显然:$p(r|A) = \frac{2}{4}$
  我们还知道 $p(r ; and ;A) =p(A) \times p(r|A)=\frac{4}{9} \times \frac{2}{4}=\frac{2}{9}$

问题3: 如果已知拿到的是白球,那么这个求是来自A箱的概率是多少呢?
  A中有三个白球,B中有1个白球,共有4个白球, 那么显然这个球从A中取的概率是$p(A|w)=\frac{2}{4}$, 我们看看来自A并且是白球的概率:
$$p(w ; and ;A) =p(A) \times p(w|A)=\frac{4}{9} \times \frac{2}{4}\
= p(w) \times p(A|w)=\frac{4}{9} \times \frac{2}{4} = \frac{2}{9}\
$$

根据上式可以得出:
$$p(A|w) = \frac{p(w|A) \times p(A)}{p(w)}$$
这就是贝叶斯准则。

文本分类问题

以在线社区留言为例,下面是某社区留言本的留言统计,作为训练数据,postingList是留言记录,每一行是一条留言,classVec记录对应的分类,0表示非侮辱性留言$c_0$,1表示侮辱性留言$c_1$

     postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                 ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                 ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                 ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                 ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                 ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    classVec = [0,1,0,1,0,1]    #1 is abusive, 0 not

目标:
  当输入一条新的留言的时候判断是否是侮辱性留言,设$w$为输入的留言
  那么问题就是$p(c_i|w) = \frac{p(w|c_i) \times p(c_i)}{p(w)}$,计算出每一个$p(c_i|w)$后只需要找出概率最大的$p(c_i|w)$就可以确定类别了, 由于是比较大小所以$p(w)$相同的情况下只需要计算$p(c_i|w) = p(w|c_i) \times p(c_i)$用于比较即可. 对于训练集数据,$p(w)$表示单词在所有训练文本中出现的概率,$p(c_i)$表示训练集中某一个类别出现的概率,$p(w|c_i)$

词向量:
  由于句子和单词用来计算或者用来统计比较麻烦,所以我们可以把训练集中的单词转为词向量来方便统计。词向量$w$是一个元素为0或1的list,这个list对应训练集中出现的所有单词,每一个元素对应一个单词,0代表没有出现,1代表出现。
1.生成单词表
  首先需要一个包含所有单词的单词表vocablist,单词表里不需要用一个单词重复出现,因此对于训练集输入的所有句子,先用set保存单词再转换成list

def createVocablist(dataset):
    vocablist = set()
    for doc in dataset:
        vocablist = vocablist | set(doc)
    return list(vocablist)

2.生成词向量
  inputSet为当前输入的句子,返回的词向量为句子中的单词在单词表中的出现情况,先构建一个值为0长度和vocablist一样的词向量,遍历输入的句子inputSet,中的所有单词,如果单词是单词表里的就像对应位置的词向量元素置为1。这里输入的句子中有可能会出现单词表中不存在的单词,这里我们可以忽略这些单词。

def word2vec(vocablist,inputSet):
    ret = [0]*len(vocablist)
    for word in inputSet:
        if word in vocablist:
            ret[vocablist.index(word)] = 1
        else:
            pass
    return ret

处理训练集:
  首先需要将训练集中的原始数据转换为词向量的形式,对于每一个留言生成称为一个词向量
  处理后的训练集trainMat = [ [0,1,0,0,1....1,0,1],
               [1,1,0,0,1....1,1,1],
               ...
               [0,1,0,1,0....1,0,1],
               [0,0,0,0,1....0,0,1], ]
  形式,每一个词向量的长度和vocavlist长度一致。

训练数据:
  训练数据就是统计$p(c_i)$ 和$p(w|c_i)$,
  对于$p(c_i)$,classlist为0,1向量形式,只需要 pAbusive = sum(classlist)/float(len(classlist)),即可得到$p(c_1)$ ,$p(c_0) = 1-p(c_1)$
  对于$p(w|c_i) = \frac{每一个单词出现次数}{所有单词出现次数} |c_i$, 由于可能这里除法出现极小的数,对计算不利,我们可以用log来转换一下,后面的乘法也可以改为加法计算
  训练结束后我们得到了$p(c_1)$和$p(c_0) = 1-p(c_1)$,以及$p(w|c_i)$,(p1Vec,p2Vec)注意这里的w是一个向量($w=[w_1,w_2...,w_n]$),表示每一个词在$c_i$中出现的概率

    for i in range(numTrainDocs):
        if classlist[i] == 1:
            perWordNum1 += trainMat[i]
            totalWord1  += sum(trainMat[i])
        else:
            perWordNum0 += trainMat[i]
            totalWord0  += sum(trainMat[i])
 
    p1Vec = log(perWordNum1/totalWord1)
    p0Vec = log(perWordNum0/totalWord0)

分类:
 当有新的句子需要分类时,需要将句子先转换为词向量

    testInput = word2vec(vocablist,['love','my','daltation'])
    testInput = word2vec(vocablist,['stupid','garbege'])

然后将输入的词向量和p1Vec,p0Vec跟别相乘判断拿一个类别概率更大即可

  def classifyNB(inputVec,p0Vec,p1Vec,pClass1):
    inputArray =array(inputVec)
    p1 = sum(inputArray * p1Vec) + pClass1
    p0 = sum(inputArray * p0Vec) + 1 - pClass1
    if p1 > p0:return 1
    else:return 0

完整代码

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,670评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,928评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,926评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,238评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,112评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,138评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,545评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,232评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,496评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,596评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,369评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,226评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,600评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,906评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,185评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,516评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,721评论 2 335

推荐阅读更多精彩内容