机器学习_TF-IDF逆文本频率指数

1. 原理

TF-IDF（term frequency–inverse document frequency）是信息处理和数据挖掘的重要算法，它属于统计类方法。最常见的用法是寻找一篇文章的关键词。

其公式如下：

TF（词频）是某个词在这篇文章中出现的频率，频率越高越可能是关键字。它具体的计算方法如上面公式所示：某关键在文章中出现的次数除以该文章中所有词的个数，其中的i是词索引号，j是文章的索引号，k是文件中出现的所有词。

IDF（逆向文档频率）是这个词出现在其它文章的频率，它具体的计算方法如上式所示：其中分子是文章总数，分母是包含该关键字的文章数目，如果包含该关键字的文件数为0，则分子为0，为解决此问题，分母计算时常常加1。当关键字，如“的”，在大多数文章中都出现，计算出的idf值算小。

把TF和IDF相乘，就是这个词在该文章中的重要程度。

2. 使用Sklearn提供的TF-IDF方法

Sklearn是最常用的机器学习第三方模型，它也支持对TF-IDF算法。

本例中，先使用Jieba工具分词，并模仿英文句子，将其组装成以空格分割的字符串。

01 import jieba
02 import pandas as pd
03 from sklearn.feature_extraction.text import CountVectorizer
04 from sklearn.feature_extraction.text import TfidfTransformer 
05  
06 arr = ['第一天我参观了美术馆',
07 '第二天我参观了博物馆',
08 '第三天我参观了动物园',]
09  
10 arr = [' '.join(jieba.lcut(i)) for i in arr] # 分词
11 print(arr)
12 # 返回结果：（谢彦的技术博客）
13 ['第一天 我 参观 了 美术馆', '第二天 我 参观 了 博物馆', '第三天 我 参观 了 动物园']

然后使用sklearn提供的CountVectorizer工具将句子列表转换成词频矩阵，并将其组装成DataFrame。

01 vectorizer = CountVectorizer()
02 X = vectorizer.fit_transform(arr)
03 word = vectorizer.get_feature_names()
04 df = pd.DataFrame(X.toarray(), columns=word)
05 print(df)
06 # 返回结果：（谢彦的技术博客）
07 # 动物园  博物馆  参观  第一天  第三天  第二天  美术馆
08 # 0 0       0      1     1      0      0       1
09 # 1 0       1      1     0      0      1      0
10 # 2 1       0      1     0      1      0      0

其方法get_feature_names返回数据中包含的所有词，需要注意的是它去掉了长度为1的单个词，且重复的词只保留一个。X.toarray()返回了词频数组，组合后生成了包含关键词的字段，这些操作相当于对中文切分后做OneHot展开。每条记录对应列表中的一个句子，如第一句“第一天我参观了美术馆”，其关键字“参观”、“第一天”、“美术馆”被置为1，其它关键字置0。

接下来使用TfidfTransformer方法计算每个关键词的TF-IDF值，值越大，该词在它所在的句子中越重要：

01 transformer = TfidfTransformer()
02 tfidf = transformer.fit_transform(X)
03 weight = tfidf.toarray()
04 for i in range(len(weight)): # 访问每一句
05 print("第{}句：".format(i))
06     for j in range(len(word)): # 访问每个词
07         if weight[i][j] > 0.05: # 只显示重要关键字
08             print(word[j],round(weight[i][j],2)) # 保留两位小数
09 # 返回结果 （谢彦的技术博客）
10 # 第0句：美术馆 0.65 参观 0.39 第一天 0.65   
11 # 第1句：博物馆 0.65 参观 0.39 第二天 0.65
12 # 第2句：动物园 0.65 参观 0.39 第三天 0.65

经过对数据X的计算之后，返回了权重矩阵，句中的每个词都只在该句中出现了一次，因此其TF值相等，由于“参观”在三句中都出现了，其IDF较其它关键字更低。细心的读者可以发现，其TF-IDF结果与上述公式中计算得出的结果这一致，这是由于Sklearn除了实现基本的TF-IDF算法外，还其行了归一化、平滑等一系列优化操作。详细操作可参见Sklearn源码中的sklearn/feature_extraction/text.py具体实现。

3. 写程序实现TF-IDF方法

TF-IDF算法相对比较简单，手动实现代码量也不大，并且可以在其中加入定制作化操作，例如：下例中也加入了单个字重要性的计算。

本例中使用了Counter方法统计各个词在所在句中出现的次数。

01 from collections import Counter
02 import numpy as np
03  
04 countlist = []
05 for i in range(len(arr)):
06     count = Counter(arr[i].split(' ')) # 用空格将字串切分成字符串列表，统计每个词出现次数
07     countlist.append(count)
08 print(countlist)
09 # 返回结果：（谢彦的技术博客）
10 # [Counter({'第一天': 1, '我': 1, '参观': 1, '了': 1, '美术馆': 1}),
11 #  Counter({'第二天': 1, '我': 1, '参观': 1, '了': 1, '博物馆': 1}),
12 # Counter({'第三天': 1, '我': 1, '参观': 1, '了': 1, '动物园': 1})]

接下来定义了函数分别计算TF，IDF等值。

01 def tf(word, count):
02     return count[word] / sum(count.values())
03 def contain(word, count_list): # 统计包含关键词word的句子数量
04     return sum(1 for count in count_list if word in count)
05 def idf(word, count_list):
06     return np.log(len(count_list) / (contain(word, count_list)) + 1)  #为避免分母为0，分母加1
07 def tfidf(word, count, count_list):
08     return tf(word, count) * idf(word, count_list)
09 for i, count in enumerate(countlist):
10 print("第{}句：".format(i))
11     scores = {word: tfidf(word, count, countlist) for word in count}
12     for word, score in scores.items():
13         print(word, round(score, 2))
14 # 运行结果：（谢彦的技术博客）
15 # 第0句：第一天 0.28 我 0.14 参观 0.14 了 0.14 美术馆 0.28
16 # 第1句：第二天 0.28 我 0.14 参观 0.14 了 0.14 博物馆 0.28
17 # 第2句：第三天 0.28 我 0.14 参观 0.14 了 0.14 动物园 0.28

从返回结果可以看出，其TF-IDF值与Sklearn计算出的值略有不同，但比例类似，且对单个字进行了统计。

最后，需要再探讨一下TF-IDF的使用场景。在做特征工程时，常遇到这样的问题：从一个短语或短句中提取关键字构造新特征，然后将新特征代入分类或者回归模型，是否需要使用TF-IDF方法？首先，TF是词频，即它需要在一个文本中出现多次才有意义，如果在短句中，每个词最多只出现一次，那么计算TF不如直接判断其是否存在。

另外，TF-IDF的结果展示的是某一词针对于它所在文档的重要性，而不是对比两文档的差异。比如上例中虽然三个短句都包含“参观”，IDF较小，由于词量小TF较大，其最终得分TF-IDF仍然不太低。如果两个短语属于不同类别，新特征对于提取分类特征可能没有意义，但是对于生成文摘就是有意义的关键字。对于此类问题，建议使用：先切分出关键词，将是否包含该关键词作为新特征，然后对新特征和目标变量做假设检验，以判断是否保留该变量的方法提取新特征。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,530评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 86,403评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,120评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,770评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,758评论 5赞 367
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,649评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,021评论 3赞 398
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,675评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,931评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,659评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,751评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,410评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,004评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,969评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,042评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,493评论 2赞 343

机器学习_TF-IDF逆文本频率指数

推荐阅读更多精彩内容