学习笔记 — 关键词提取

关键词是指能反映文本主题或者主要内容的词语。关键词提取是NLP领域的一个重要的子任务。在信息检索中，准确的关键词提取可以大幅提升效率；在对话系统中，机器可以通过关键词来理解用户意图；在文本分类中，关键词的发现也非常有帮助。

关键词提取的方法主要有：TF-IDF、TextRank、Rake、Topic-Model等。

TF-IDF

TF-IDF的基本思想是：词语的重要性与它在文件中出现的次数成正比，但同时会随着它在语料库中出现的频率成反比下降。

一个文档中多次出现的词总是有一定的特殊意义，但是并不是所有多次出现的词就都是有意义的，如果一个词在所有的文档中都多次出现，那么这个词就没有什么价值了。或者说，如果某个词或者短语在一个文档中出现多次，但是在其他文档中很少出现，就可以认为这个词或短语具有很好的区分性，适合用来对文档进行分类。

TF（Term Frequency）表示一个词在文档中出现的次数。

DF（Document Frequency）表示整个语料库中含有某个词的文档个数

IDF（Inverse Document Frequency）为逆文档频率，其计算公式为：
IDF= log(语料库中文档总数/(包含该词的文档数+1))

+1 的作用是确保分母不为零。

TF-IDF = TF * IDF

由公式可知：一个词在文档中出现的次数越多，其TF值就越大，整个语料库中包含某个词的文档数越少，则IDF值越大，因此某个词的TF-IDF值越大，则这个词是关键词的概率越大。

TF-IDF关键词提取算法的一大缺点是：为了精确的提取一篇文档中的关键词，需要有一整个语料库来提供支持。这个问题的解决方法，通常是在一个通用的语料库上提前计算好所有词的IDF值，jieba就是这么做的。这样的解决方案对于普通文档关键词提取有一定的效果，但是对于专业性稍微强一点的文档，表现就会差很多。

jieba中的已经有TF-IDF关键词提取算法的实现。使用jieba中的TF-IDF关键词提取算法的代码如下：

Rake

Rake的英文全称是Rapid Automatic Keyword Extraction。

Rake算法引入了一个degree（度）的概念，并且对词和短语不做任何区分，因此，它实际上是不仅仅是在提取关键词，也是在提取关键短语。

关于Rake中引入的degree，它其实是图论中的一个概念。在一张图上，任一顶点的degree（度）是指与该顶点相关联的边的条数。在Rake算法中，一个词的degree其实就是它在整个文档中的非重复共现词的数量。

举个例子来说明degree的计算。比如在 “我要买一个小米手机，因为大家都说小米手机很好用！”中，“小米”这个词出现了两次，共现词分别是【一个，手机，说，手机】，因此，在这句话中，“小米”这个词的degree就是3。

使用Rake算法进行关键词提取不需要一整个语料库的支持，相比于TF-IDF，这是一个很大的优势。

Rake算法的输入参数有三个：1）停用词表（stop words）；2）段落分割符；3）词语分割符。针对同一种语言，这三个参数事实上是一样的。

使用Rake算法进行关键词（短语）提取的过程如下：

step 1. 从输入文本中获取候选关键词（candidate keywords）

step 2. 计算所有候选关键词的得分，公式如下：

 score = sum(deg(w)/freq(w))

step 3. 拼接候选关键词（以同样的顺序相邻出现两次），获取带有停用词的关键词

step 4. 输出得分最高的前T个候选关键词作为关键词，作者的做法是输出前三分之一

Rake算法的实现，请点击：https://github.com/zelandiya/RAKE-tutorial

TextRank

关于TextRank算法，之前写过一篇，点击直达

参考资料

1、ROSE S, ENGEL D, CRAMER N等. Automatic Keyword Extraction from Individual Documents[G]//Text Mining. Wiley-Blackwell, 2010: 1–20.

2、关键词提取方法学习总结（TF-IDF、Topic-model、RAKE）

3、用 RAKE 和 Maui 做 NLP 关键词提取的教程

4、https://github.com/zelandiya

5、自然语言处理系列篇——关键词智能提取

最后编辑于：2018.04.22 15:23:48

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,271评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,275评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,151评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,550评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,553评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,559评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,924评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,580评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,826评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,578评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,661评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,363评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,940评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,926评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,156评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,872评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,391评论 2赞 342

学习笔记 — 关键词提取

TF-IDF

Rake

TextRank

参考资料

推荐阅读更多精彩内容