情感分析之TF-IDF算法

http://mini.eastday.com/bdmip/180414224336264.html

在这篇文章中，主要介绍的内容有：

1、将单词转换为特征向量

2、TF-IDF计算单词关联度

文本的预处理和分词。

如何将单词等分类数据转成为数值格式，以方便我们后面使用机器学习来训练模型。

一、将单词转换为特征向量

词袋模型(bag-of-words model)：将文本以数值特征向量的形式来表示。主要通过两个步骤来实现词袋模型：

1、为整个文档集(包含了许多的文档)上的每个单词创建一个唯一的标记。

2、为每个文档构建一个特征向量，主要包含每个单词在文档上的出现次数。

注意：由于每个文档中出现的单词数量只是整个文档集中很少的一部分，因此会有很多的单词没有出现过，就会被标记为0。所以，特征向量中大多数的元素就会为0，就会产生稀疏矩阵。

下面通过sklearn的CountVectorizer来实现一个词袋模型，将文档转换成为特征向量

通过count.vocabulary_我们可以看出每个单词所对应的索引位置，每一个句子都是由一个6维的特征向量所组成。其中，第一列的索引为0，对应单词"and"，"and"在第一和二条句子中没有出现过，所以为0，在第三条句子中出现过一些，所以为1。特征向量中的值也被称为原始词频(raw term frequency)简写为tf(t,d)，表示在文档d中词汇t的出现次数。

注意：在上面词袋模型中，我们是使用单个的单词来构建词向量，这样的序列被称为1元组(1-gram)或单元组(unigram)模型。除了一元组以外，我们还可以构建n元组(n-gram)。n元组模型中的n取值与特定的应用场景有关，如在反垃圾邮件中，n的值为3或4的n元组可以获得比较好的效果。下面举例说明一下n元组，如在"the weather is sweet"这句话中，

1元组："the"、"weather"、"is"、"sweet"。

2元组："the weather"、"weather is"、"is sweet"。

在sklearn中，可以设置CountVecorizer中的ngram_range参数来构建不同的n元组模型，默认ngram_range=(1,1)。

sklearn通过CountVecorizer构建2元组

二、TF-IDF计算单词关联度

在使用上面的方法来构建词向量的时候可能会遇到一个问题：一个单词在不同类型的文档中都出现，这种类型的单词其实是不具备文档类型的区分能力。我们通过TF-IDF算法来构建词向量，从而来克服这个问题。

词频-逆文档频率(TF-IDF，term frequency-inverse document frequency)：tf-idf可以定义为词频×逆文档频率

其中tf(t,d)表示单词t在文档d中的出现次数，idf(t,d)为逆文档频率，计算公式如下

其中，nd表示文档的总数，df(t,d)表示包含单词t的文档d的数量。分母中加入常数1，是为了防止df(t,d)=0的情况，导致分母为0。取log的目的是保证当df(t,d)很小的时候，不会导致idf(t,d)过大。

通过sklearn的TfidfTransformer和CountVectorizer来计算tf-idf

可以发现"is"(第二列)和"the"(第六列)，它们在三个句子中都出现过，它们对于文档的分类所提供的信息并不会很多，所以它们的tf-idf的值相对来说都是比较小的。

注意：sklearn中的TfidfTransformer的TF-IDF的计算与我们上面所定义TF-IDF的公式有所不同,sklearn的TF-IDF计算公式

通常在计算TF-IDF之前，会对原始词频tf(t,d)做归一化处理，TfidfTransformer是直接对tf-idf做归一化。TfidfTransformer默认使用L2归一化，它通过与一个未归一化特征向量L2范数的比值，使得返回向量的长度为1，计算公式如下：

下面通过一个例子来说明sklearn中的TfidfTransformer的tf-idf的计算过程，以上面的第一句话"The sun is shining"为例子

1、计算原始词频

a、单词所对应的下标

b、计算第三句话的原始词频tf(t,d)

c、计算逆文档频率idf(t,d)

注意：其他的词在计算tf-idf都是0，因为原始词频为0，所以就不需要计算idf了，log是以自然数e为底。

d、计算tf-idf

所以，第一个句子的tf-idf特征向量为[0,1,1.29,1.29,0,1,0]

e、tf-idf的L2归一化

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,905评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,140评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,791评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,483评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,476评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,516评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,905评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,560评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,778评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,557评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,635评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,338评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,925评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,898评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,142评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,818评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,347评论 2赞 342

情感分析之TF-IDF算法

推荐阅读更多精彩内容