论文小结(一)

前言

懒惰如我,总是想着有时间将所看的论文好好总结一番,却总是如拖延症晚期患者一般,一直拖一直拖,今晚终于下定决心进行总结,现在开工!

Emerging Topic Detection on Twitter based on Temporal and Social Terms Evaluation

MDMKDD'10

论文流程

  1. 获取t时刻的tweet数据集,将每条推文表示成词频向量
  2. 采用PageRank算法计算每条推文的发布者权威值
  3. 根据novel aging theory,建立每个term的生命周期模型
  4. 对每个term,根据其生命周期状态进行排序,选取emerging terms
  5. 建立话题导航图,由图的强连通子图中的terms构成emergent topic的词汇集

论文小记

本文所采用的词频向量是由未经过预处理的所有词汇构成,虽然这在某种程度上能够保留下所有的推文信息,但是,推文数据量极大,数据集中包含大量噪声信息,如拼写错误、无意义词汇信息、广告信息等,所以在使用时,可以考虑使用经过预处理后的实验数据集。

时间间隔的选取会影响到后续挖掘到的事件数量和质量,当时间间隔设置的比较小时,会挖掘到大量小型事件,同时一些周期性词汇可能会影响挖掘效果。如good morning、afternoon等词汇,以及一些周一上班、周五放假、工作日与非工作日相关的周期性词汇等。所以在对时间间隔进行设置时需要根据数据集的特点,以及挖掘的目的进行相应的设置。

在计算用户权威值时,实际上考虑的是用户的粉丝数,只考虑用户粉丝这一个指标,可以考虑增加几个指标,如用户发布的推文数、推文质量、评论数、转发数、点赞数,被@与@用户等。

生命周期模型比较有吸引力,通过类比的方式,能够比较清晰地表达词汇的变化过程。在话题探测过程中,词汇/话题会经历新生、快速增长、趋于稳定、逐渐消失等过程,但是不同的话题在每个过程中持续的时间长短不一致,需要综合考虑背景话题、周期性话题、激增激没话题、平稳话题等不同类型的话题的不同表现形式,及对话题探测的不同影响

SigniTrend: Scalable Detection of Emerging Topics in Textual Streams by Hashed Significance Thresholds

KDD'14

创新性

  1. 提出一个基于指数权重移动平均/方差和Z-score的term/term对的重要性衡量指标
  2. hash算法可以显著减少内存消耗,本文采用hash的方式对所有词对的重要性进行度量,从而提高可扩展性
  3. 对小话题进行聚类形成大话题

论文小结

本文并非专门针对tweet设计的算法,实验数据集使用了新闻语料、tweet和stackOverflow三个语料,但是实验结果只展示了一个探测到的top-50的话题-词汇表,同时采用的是手工评估方式,所以并不能够很好地看出算法的优势。主要工作集中在重要性衡量指标上。

Streaming First Story Detection with application to Twitter

ACL'10

论文简介

本文以文本/推文为单位,着眼于挖掘关于某一个事件的第一篇报道/推文,具体步骤:

  1. 采用LSH(局部敏感哈希)算法,计算新报道/推文的最近邻;
  2. 根据新推文与最近邻之间余弦相似性,计算该推文的novelty值;
  3. 该推文的novelty值大于阈值时,认为该推文是一个新事件的首篇推文,否则,将该推文放入最近邻所在事件中。
    实验语料集为TDT5和Twitter数据集,评价指标分别为归一化损失函数(遗失一篇新推文、错将一篇旧推文作为新推文以及探测的新推文并非真的新推文的损失)和人工评估

论文小结

本文采用改进的LSH方式能够实现常量级时间开销,但是在计算novelty值时只考虑了新旧文本词频间的余弦相似性,考虑的因素比较少,对于推文这类高噪声短文本,词频向量比较稀疏,效果不会很好。本文主要针对新推文的挖掘,而非新事件。

Topic Dynamics: An Alternative Model of ‘Bursts’ in Streams of Topics

KDD'10

论文简介

本文借用物理学中的一些基本概念来对度量突发性,如速度、加速度、质量、动量等,文中采用两个时点移动平均值间的差异表示速度,用速度与质量的积表示动量,用动量激增的区间表示突发区间。

论文小结

该模型主要用于长文本数据,度量的是一个话题的突发区间,而非对突发话题进行检测,不过文中提出的一些概念可以加以借鉴。

小结

目前,新兴话题探测主要集中于词汇新颖性的度量,词汇聚类形成话题,抽取代表性的词汇表示话题这几个步骤,关键在于词汇新颖性的度量。
突发话题检测主要有几个主要的问题:如何尽可能早的探测到话题,这涉及到时间片的划分,时间片的长度会影响到所探测到的话题的粒度以及周期性话题所带来的噪声;新颖性值的度量,主要需要考虑如何区分背景词汇、新兴词汇、噪声词汇,凸显新兴词汇的值;词汇聚类,不同话题的规模不一致,词汇间距离不一致,如何确定聚类函数,定义距离阈值,最好能够自适应。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,053评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,527评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,779评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,685评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,699评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,609评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,989评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,654评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,890评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,634评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,716评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,394评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,976评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,950评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,191评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,849评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,458评论 2 342

推荐阅读更多精彩内容