最近想入门NLP,于是找了一些资源来看,其中有一本书很不错,叫Python自然语言处理,我看的是中文版,翻译质量一般,不过别人也是无偿的,只能说很敬佩。不过有一个小问题就是它的python版本是2.4,而我的是3.6,我用的NLTK也是3以上的版本,所以书中的许多例子都有些不太一样,下面我就罗列一下不太一样的地方。
1. P.28 text3.generate()失效
2.全文翻译“链表”现一般称作“列表”
3. text5.count('lol')/len(text5) 直接可得频率比值,无需import __future__
4. fdist1现在不是按照词频排序了,应该是乱序,你必须自己排序
5.fdist1.plot(50,cumulative = True) 纵轴不是百分比,而是数值
6.fdist.inc(‘item')添加语料功能已失效
7.fdist.tabulate() 绘制频率分布表功能实现为乱码)
8.bigrams()失效
9.babelize_shell()失效 。。。好可惜啊
10.nltk.chat.chatbots()有严重BUG,程序应该是将回车键当作输入值导致其无限循环而陷入死机,解决办法是如图直接访问机器人名字
以下是我做的笔记,有想看的同学可以到我的Github主页上去下载,以后章节的笔记也会持续更新,敬请关注!