前言
懒惰如我,总是想着有时间将所看的论文好好总结一番,却总是如拖延症晚期患者一般,一直拖一直拖,今晚终于下定决心进行总结,现在开工!
Emerging Topic Detection on Twitter based on Temporal and Social Terms Evaluation
MDMKDD'10
论文流程
- 获取t时刻的tweet数据集,将每条推文表示成词频向量
- 采用PageRank算法计算每条推文的发布者权威值
- 根据novel aging theory,建立每个term的生命周期模型
- 对每个term,根据其生命周期状态进行排序,选取emerging terms
- 建立话题导航图,由图的强连通子图中的terms构成emergent topic的词汇集
论文小记
本文所采用的词频向量是由未经过预处理的所有词汇构成,虽然这在某种程度上能够保留下所有的推文信息,但是,推文数据量极大,数据集中包含大量噪声信息,如拼写错误、无意义词汇信息、广告信息等,所以在使用时,可以考虑使用经过预处理后的实验数据集。
时间间隔的选取会影响到后续挖掘到的事件数量和质量,当时间间隔设置的比较小时,会挖掘到大量小型事件,同时一些周期性词汇可能会影响挖掘效果。如good morning、afternoon等词汇,以及一些周一上班、周五放假、工作日与非工作日相关的周期性词汇等。所以在对时间间隔进行设置时需要根据数据集的特点,以及挖掘的目的进行相应的设置。
在计算用户权威值时,实际上考虑的是用户的粉丝数,只考虑用户粉丝这一个指标,可以考虑增加几个指标,如用户发布的推文数、推文质量、评论数、转发数、点赞数,被@与@用户等。
生命周期模型比较有吸引力,通过类比的方式,能够比较清晰地表达词汇的变化过程。在话题探测过程中,词汇/话题会经历新生、快速增长、趋于稳定、逐渐消失等过程,但是不同的话题在每个过程中持续的时间长短不一致,需要综合考虑背景话题、周期性话题、激增激没话题、平稳话题等不同类型的话题的不同表现形式,及对话题探测的不同影响
SigniTrend: Scalable Detection of Emerging Topics in Textual Streams by Hashed Significance Thresholds
KDD'14
创新性
- 提出一个基于指数权重移动平均/方差和Z-score的term/term对的重要性衡量指标
- hash算法可以显著减少内存消耗,本文采用hash的方式对所有词对的重要性进行度量,从而提高可扩展性
- 对小话题进行聚类形成大话题
论文小结
本文并非专门针对tweet设计的算法,实验数据集使用了新闻语料、tweet和stackOverflow三个语料,但是实验结果只展示了一个探测到的top-50的话题-词汇表,同时采用的是手工评估方式,所以并不能够很好地看出算法的优势。主要工作集中在重要性衡量指标上。
Streaming First Story Detection with application to Twitter
ACL'10
论文简介
本文以文本/推文为单位,着眼于挖掘关于某一个事件的第一篇报道/推文,具体步骤:
- 采用LSH(局部敏感哈希)算法,计算新报道/推文的最近邻;
- 根据新推文与最近邻之间余弦相似性,计算该推文的novelty值;
- 该推文的novelty值大于阈值时,认为该推文是一个新事件的首篇推文,否则,将该推文放入最近邻所在事件中。
实验语料集为TDT5和Twitter数据集,评价指标分别为归一化损失函数(遗失一篇新推文、错将一篇旧推文作为新推文以及探测的新推文并非真的新推文的损失)和人工评估
论文小结
本文采用改进的LSH方式能够实现常量级时间开销,但是在计算novelty值时只考虑了新旧文本词频间的余弦相似性,考虑的因素比较少,对于推文这类高噪声短文本,词频向量比较稀疏,效果不会很好。本文主要针对新推文的挖掘,而非新事件。
Topic Dynamics: An Alternative Model of ‘Bursts’ in Streams of Topics
KDD'10
论文简介
本文借用物理学中的一些基本概念来对度量突发性,如速度、加速度、质量、动量等,文中采用两个时点移动平均值间的差异表示速度,用速度与质量的积表示动量,用动量激增的区间表示突发区间。
论文小结
该模型主要用于长文本数据,度量的是一个话题的突发区间,而非对突发话题进行检测,不过文中提出的一些概念可以加以借鉴。
小结
目前,新兴话题探测主要集中于词汇新颖性的度量,词汇聚类形成话题,抽取代表性的词汇表示话题这几个步骤,关键在于词汇新颖性的度量。
突发话题检测主要有几个主要的问题:如何尽可能早的探测到话题,这涉及到时间片的划分,时间片的长度会影响到所探测到的话题的粒度以及周期性话题所带来的噪声;新颖性值的度量,主要需要考虑如何区分背景词汇、新兴词汇、噪声词汇,凸显新兴词汇的值;词汇聚类,不同话题的规模不一致,词汇间距离不一致,如何确定聚类函数,定义距离阈值,最好能够自适应。