NLTK中的条件概率分布

产生一个文本，一般要基于一个已有的训练集，或者说是种子，来告诉程序词汇的分布以及用词习惯，下面是一个最为基础的文本产生函数，基于nltk的条件频率分布函数构建：

def generate_model(cfd, word, num=15):
    for i in range (num):
        print word #输出当前词汇        
        word = cfd[word].max() #该词汇的下一个"最有可能"与之联结的词汇, 并替代当前词汇，使之输入到下一次循环当中
text = nltk.corpus.genesis.words('english-kjv.txt')
bigrams = nltk.bigrams(text)
cfd = nltk.ConditionalFreqDist(bigrams)

这里想详细说说nltk.ConditionalFreqDist这个函数，个人感觉这个函数意义非凡。该函数是频率分布的集合，比如，我们想统计在新闻文体中和言情小说文体中给定词的频率分布，那么这里的“新闻”以及“言情小说”就是两个条件，而给定的词，就是我们观察到的事件。在一个ConditionalFreqDist函数中，(条件，事件)的集合，就是输入的argument，比如：
cfd = ConditionalFreqDist(条件，事件)

举例说明，我们想知道brown语料库中，news和romance两种文学体裁的词频分布，那么我们可以使用如下代码:

#我们先设置（条件，事件）的集合：
genre_word= [(genre, word) for genre in ['news','romance'] for word in brown.words(categories = genre)]

#输出条件频率
cfdist = nltk.ConditionalFreqDist(genre_word)
#这个函数的输出，事实上是有“news”以及“romance”条件的counter default字典，下面是一部分#output:
#defaultdict(nltk.probability.FreqDist,
            {'news': Counter({u'sunbonnet': 1,
                      u'Elevated': 1,
                      u'narcotic': 2,
                      u'four': 73,
                      u'woods': 4,
                      u'railing': 1,
                      u'Until': 5,
#我们可以进一步的切片这个结果：
news = cfdist['news’]
<FreqDist with 14394 samples and 100554 outcomes>
news_four = cfdist['news']['four’] #cfdist[条件][事件]
Out[39]: 73

除此之外，我们还可以对cfdist做一写表达式处理，比如tabulate或者plot：

In[44]: cfdist.tabulate(conditions = ['news'],samples = ['four'])
     four
news   73
In[45]: cfdist.tabulate(samples = ['four'])
        four
   news   73
romance    8
In[46]: cfdist.tabulate(samples = ['I','love','you'])
           I love  you
   news  179    3   55
romance  951   32  456

#我们也可以让他显示百分比而不是counts:

cfdist_copy = cfdist
total_news = cfdist['news'].N()
total_romance = cfdist['romance'].N()

for i in cfdist_copy['news']:
    cfdist_copy['news'][i] = float(cfdist_copy['news'][i])/float(total_news)

for j in cfdist_copy['romance']:
    cfdist_copy['romance'][j] = float(cfdist_copy['romance'][j])/ float(total_romance)

print cfdist['romance']['I']
Out[78]: 0.013581445831310159

我们也可以对结果进行画图，使之更加浅显易懂：

cfdist.plot(samples = [‘I’, ‘love’, ‘you’])

接下来，我们还可以利用CFD做一些更有趣的事情，比如自动生成一个文本, 即该文一开头的例子，这里我们有言情小说来构建一篇更有趣的“电脑写的言情小说”：

from nltk.corpus import brown

def generate_romance(rcfdist, word, num = 100):
    for i in range(num):
        print word
        word = rcfdist[word].max()

refined = [w for w in brown.words(categories = 'romance') if w.isalpha()]
bigrams = nltk.bigrams(refined)
rcfdist = nltk.ConditionalFreqDist(bigrams)

generate_romance(rcfdist,’love’)

output:
love
you
have
to
the
same
time
to
the
same
time
to
the

可以看到，这个程序实际上存在很大问题，因为某些bigrams一旦出现固定循环，程序就会不停的在这个循环内滚动，不过这样运用条件概率分布的例子，仍然对我们是有启发性的。

最后编辑于：2017.12.10 07:01:23

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,590评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 86,808评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,151评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,779评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,773评论 5赞 367
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,656评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,022评论 3赞 398
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,678评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 41,038评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,659评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,756评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,411评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,005评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,973评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,053评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,495评论 2赞 343

NLTK中的条件概率分布

推荐阅读更多精彩内容