Hidden topic-emotion tansition model for multi-level social emotion detection

1.Motivation

social emotion detection ，主要集中于预测读者的emotion，针对这个任务，有很多基于图模型的，将emotion看作是隐藏的变量。

1.并且一般都使用Bag-of-words的假设：忽略了词的顺序、文档中的每个词的sentiment/emotion分配不依赖于之前的单词的sentiment/emotion分配。这样简单的假设忽略了文档中的结构性信息，然而这些信息对于social emotion detection 是非常重要的。2.只是在一个level上检测emotion

2.related work

社交情感检测主要有两种方法：

1.discriminative model based

把任务变成了情感分类问题

2.topic model based

将sentiment或者social emotions当作是隐含的变量，在topic model中加入了一个sentiment/emotion层。

3.topic models for sentiment analysis

Hidden topic Markov model（HTMM）对单词的topic进行建模，将文档中单词的topic作为马尔可夫链，topic transition 只能发生在句子之间，Hidden topic sentiment model (HTSM)扩展了HTMM，将句子的aspect和情绪标签的组合作为马尔可夫链。它假定一个句子中的单词具有相同的aspect标签和情绪标签，并限制transition，假定只有一个情绪极性可以与文档中的特定aspect相关联。

本文的模型是受到HTSM 的启发，但是和HSTM 有几点不同：

①HSTM只考虑了两种情感极性，简单地将emotion transition当作一个switch变量，但是TET对多种情感transition建模，考虑了情感依赖。

②HTSM使用预定义的aspect，并对带有aspect标签的文档进行训练，而我们的数据中没有此类信息;

③与HTSM的假设不同的是，HTSM假设文档中的一个主题只能与一个极性相关联，在TET中，不同的情绪可以与文档中的同一个主题相关联，因为同一个主题可以引起不同读者的不同情绪。

3.This paper

本文中，为了充分利用document中隐含的结构性信息，提出了topic-emotion transition model（TET），通过将连续的句子中的topic和emotion建模为马尔科夫链，

本文中的假设：1.相同句子中的单词共享相同的emotion和topic 2.在相邻的句子之间可能有topic和emotion的转移。

本文同时检测document和sentence level的emotion；本文学习情感transition，并在连续的句子中同时对emotion和topic transition建模

4.Method

首先hidden TET模型将每个句子作为基本的结构单元，然后相同句子中的所有单词共享相同的topic和emotion标签，TET通过一个马尔科夫模型，在连续的句子中同时对emotion和topic transition建（为了避免BOW假设）

（1）hidden TET model

一些公式定义：

document 集合，D = {d1,d2,...d|D|}

sentence 集合， S = {s1,s2,...,smd}

{1,2,...,V} : word的V个不同的索引

{1,2,...,E} : emotion label 的索引，一共有E个不同的label

{1,2,...,T} : topic label的索引，一共有T个不同的label

对于给定的文档d，假设（文档特定的主题-情感比例）document-specific topic-emotion proportion θd是从一个共享的狄利克雷分布中提取的i.e., θd∼Dir(α)

在d中的md句子中，每一个句子都有Nsi单词，并与一个情感标签ei和一个主题标签ti相关联，这个标签是从一个特定于文档的马尔可夫链中提取出来的。

接下来，首先描述了在呈现整体的生成步骤之前，怎样对emotion和topic transition建模

The plate diagram

（2）topic transition

使用ψi作为switch 变量来 si-1和si之间是否有一个topic的转换

本文使用的是一些相邻句子之间的语言特征来guide主题转换

ψi =

�e是特征的权重，ft()是topic转移特征函数，si，si-1，si+1是输入，输出一个可以描述topic 转移的特征向量，

特征包括：

①si和si-1之间的cosine相似度

②si和si-1的长度之比

③si在d中的相对位置

④si和si-1与si和si+1的cosine相似度的差异性

（3）emotion transition

τi，句子si的情感转移矩阵（E*E），为了初始化 τ，假设有一个情感词典，情感词典由一组词和它们各自的情感分布组成（情感分布：每个单词都与多个不同强度的情感标签联系在一起。）使用ES(w,e)来表示与emotion e有关的单词w的情感得分。假设一些emotion可能和其他的emotion有关联性，这种关联信息可以用来指导emotion transition的生成。

使用皮尔森系数，被用来作为测量两种emotion ej和ek之间的相互关系的概率。，λej,ek，[-1,1]，0 的时候是无关，1是正相关，-1是负相关。使用（λej,ek+1）/2，使皮尔森系数的变化范围为[0,1]。

皮尔森系数作为权重，对句子si-1中的ej和句子si中的ek的情感得分的归一化并相加。

（4）Generative Process

ψi（控制si和si-1的topic transition）、τi（si的emotion转移矩阵）、ej（si-1的emotion）、ek（si的emotion）的组合确定了topic-emotion transition：

①ψi = 0 ，j=k，si的topic和emotion label都没有变化

②ψi = 1 ，j=k，ei = ei-1，ti 不等于 ti-1

③ψi = 1 ，j不等于k，new emotion and new topic

（5）parameter estimation

使用EM算法来评估TET模型的参数，由于TET可以看做是一个特殊的隐马尔科夫模型，所以可以在每次迭代的E-step中应用自定义的前向后向算法和Viterbi算法来积累足够的统计数据，然后在Mstep中更新参数

TET 中的隐变量是emotion label e和topic label t， emotion transition indicator τ和topic transition indicator ψ，

将句子si的(ei; ti; ψi; τi)作为document d 的马尔科夫链的隐状态，

transition function p(ei | tijτi;ei-1;ei; i; ei-1; ti-1; θ; si-1; si; �; λ; γ)

需要迭代更新的参数是θ，ψ，小e；超参数是α，β需要人工设定，λ包含情感关联是预先计算好的。

CDd,e,t是d中和e、t有关系的word 的总数；CDw,e,t表示单词w与情感标签e和主题标签t 关联的次数。

在E步中，执行了前向反算法和维特比算法，并积累了足够的统计量。

在M步中，参数θ，ψ，小e被更新，小e是通过优化交叉熵loss函数来更新的

（5）Emotion Lexicon Generation from Training Data

在TET中，情感词典的先验知识被用来计算ES和初始化ψ。

本文使用两种方法来构建情感词典，

①使用现有的情感词典DUTIR来生成，叫作CEV。虽然有很多高质量的英文情感词典，但是中文的情感词典是很少的，CEV包含7个一级情感类别和21个二级情感类别，但是不能直接拿来用在这个任务中，因为情感分类没有一一对应上，所以进行了人工匹配。对于CEV中的item，我们将其对应情感类别的情感得分分配到0:9，并将剩下的0.1平均分配给所有其他情感类别，词典叫作lex_cev。

②第二种方法是，从训练数据中生成，Mte = Mtd * Mde，

（term-by-emotion matrix = term-by-document matrix * document-by-emotion matrix）

具体来说，

对于term-by-emotion matrix ，我们通过在训练集中使用每个文档的读者情感投票来获得它的cell value，对于term-by-document matrix，使用不同的加权策略来设置每个cell的value，包括原始频率、归一化频率和TF-IDF，并将每一行规范化，以确保所有的值总和为1。

5.Experiments

实验数据集：news dataset 2016、

baseline 被分成两类，判别模型和topic模型

判别模型有三个子模型：word-level models，neural network based model和KNN-like model

word-level model：emotion-term model （ET）和supervised Unigram model（SWAT）

neural network based model ：CNN， CNN-SVM(使用CNN构造特征，使用SVM来分类)

KNN-like model是社交意见挖掘模型（SOMN）

topic-model based ：joint sentiment/topic model（JST）、 aspect and sentiment unification model (ASUM)、emotion-topic model (ETM), contextual sentiment topic model(CSTM)、multilabel supervised topic model、sentiment latent topic model（MSTM）， affective topic model(ATM)

α设置为0.01，β设置为0.001，γ设置为0.001，

评估度量：Acc@1 ：排名第一的预测结果的准确性

and AP：为所有document的平均Pearson相关系数。

6.Results

1.word- level model假设单词之间相互独立的，忽略上下文.

基于神经网络的方法比word-level model的效果更好，但是比生成模型的效果差。

SOMN使用了embedding来构造document的网络，在一定程度上考虑了词汇之间的语义关联。比生成模型的结果要稍微好一些。但是它并没有直接对主题/情感transition进行建模。

2.topic model with latent topics encoding document-level global context 获得更好的结果，但是他们都没有考虑相邻句子之间的联系，只有ASUM考虑了句子的结构。

3.TET model 对topic/emotion transition进行encode放入生成模型中，所以能够实现最好的效果。

1.extracted topics

除了social emotion classification，TET还能提取topics，为了评估模型所捕获的主题和情绪的有效性，使用公式6 提取的主题和情感组合的前10个词如图6所示。可以看出，大多数话题都与社会新闻中的一些事件相对应。

2.Sentence-level Emotion Classification

ND16是以读者视角来标注的新闻文章，RenCECps 是带有作者观点的博客。

JST的sentence-level 分类结果：通过累加句子中单词的emotion获得，因为JST不直接将情感标签分配给句子。

ASUM的结果是最差的，因为ASUM 是对每个句子添加情感标签，但是JST使对每个单词添加情感标签，而TET则考虑后验概率。

RenCECps的结果要比ND16的结果差，因为RenCECps用语句级的稀疏情绪评分和句子层次的情感分类进行标注，比文档级的情感分类更加困难。

7.conclusion

1.文本提出了隐topic-emotion transition模型，该模型通过对连续句子的情绪和主题的transition建模，将其作为马尔可夫链。在TET中，我们使用句子的语言特征来指导主题的transition。从情感词汇中计算出的情感关联，利用数据自动构建词典来指导情感transition。在参数估计中采用了自定义的前向后向算法。实验表明，我们的模型在文档级和句子级情感检测方面都优于最先进的方法。

最后编辑于：2018.05.29 18:27:36

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,098评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,213评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,960评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,519评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,512评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,533评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,914评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,574评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,804评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,563评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,644评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,350评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,933评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,908评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,146评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,847评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,361评论 2赞 342