中文自然语言处理
之前看到知乎有一篇《哪些python库让你相见恨晚?》
https://www.zhihu.com/question/24590883
里面有几个中文的库,分别是jieba、snownlp、textgrocery。jieba大家已经很熟悉了,基本上分词都会用到jieba,速度快,分词页挺准的。
我之前页写过对文本进行情绪分析的文章,用建好的词典,通过一个公式计算,得出正负面情绪分值。当时写这篇文章时,不知道其实是有中文情感分析的库。
今天我就简单介绍下snowNLP,可以分词,标注,还可以进行情绪分析。
snowNLP介绍
SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。注意本程序都是处理的unicode编码,所以使用时请自行decode成unicode。
示例
1、分词
2、词性标注
3、断句
4、情绪判断
返回值为正面情绪的概率,
越接近1表示正面情绪
越接近0表示负面情绪
5、拼音
6、繁体转简体
7、关键词抽取
8、概括总结文意
9、信息量衡量
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
TF词频越大越重要,但是文中会的“的”,“你”等无意义词频很大,却信息量几乎为0,这种情况导致单纯看词频评价词语重要性是不准确的。因此加入了idf
IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t越重要
TF-IDF综合起来,才能准确的综合的评价一词对文本的重要性。
10、文本相似性
更多内容
爬虫
【视频】有了selenium,小白也可以自豪的说:“去TMD的抓包、cookie”
【视频】快来get新技能--抓包+cookie,爬微博不再是梦
文本分析
神奇的python