「自然语言处理（NLP）论文解读」对话语境重构【滑铁卢大学&&华为】、会话状态跟踪【霍普金斯&&亚马逊】

来源：AINLPer微信公众号
编辑: ShuYini
校稿: ShuYini
时间: 2019-8-28

引言

本次有两篇为大家分享，第一篇主要针对汉语对话语境重构问题，作者将其拆分为引用表达检测和共同引用解析两部分，提出了一种端到端的模型结构。第二篇针对任务式对话系统中的会话状态跟踪问题，提出了两种神经网络结构：指针网络结构和转换网络结构。

First Blood

TILE: End-to-End Neural Context Reconstruction in Chinese Dialogue
Contributor : 滑铁卢大学 && 华为
Paper: https://www.aclweb.org/anthology/W19-4108
Code: None

文章摘要

本文主要解决了汉语对话中语境重构的问题，即把代词、零代词等指称短语替换为它们的指称名词，这样在没有上下文的情况，可以直接对句子进行单独的处理。在上下文重建任务可以被分解为引用表达检测和共引用解析的基础上，提出了一种新的端到端结构，分别和共同完成了该任务。该模型的主要特点是它包括基于神经网络的词性和位置编码以及一种新的代词掩模机制。在构建此类模型时，一个长期存在的问题是缺乏训练数据，为解决这个问题，本文通过扩展以前提出的方法来生成大量实际的训练数据。由于结合了更多的数据和更好的模型，在共同引用解析（coreference resolution ）和端到端上下文重建方面，本文模型可以获得比最先进的方法更高的精度。

本文三大看点

1、将对话中语境重构的问题定义归纳为一个检测问题和一个排序问题，并提出了它与代词、零代词检测等传统任务的区别，提出了候选选择；
2、我们分析了深层神经工作在对话中的应用，包括循序渐进和端到端方法;
3、针对上下文重建任务，提出了一种有效构建大量silver数据的方法。

本文方法介绍

本文方法原理介绍

如上图所示。我们假设一个输入话语q，它的语境是我们试图根据其他语境话语c来重建的。在聊天语境中，c来自于对话中以前的话语。在基准数据集中，我们使用第一句话定位上下文，其中出现了共同引用的内容。我们假设q和c已经被标记化了。我们的方法将上下文重建问题分为两个子任务：检测和解决。
检测是一个序列标记任务，它试图识别需要解析的引用表达式并恢复零代词。在我们的运行示例中，她（她）是这样被识别的，以及一个零代词φ（一个省略的对象）。
决议（resolution）被制定为一项排名任务。对于需要解析的每个“时隙”（上图中的she和φ），我们的模型提供了三元组的排名，其中，是解析的候选项。候选词是从上下文c中的名词短语中选出的。在推理时，选择得分最高的候选词m作为替代词。如果有多个时隙需要解析，我们的模型将按照从左到右进行解析。模型的最终输出如上图1的最后一行所示。

模型结构介绍

本文模型结构如下图所示：

在结合检测和排序模块的基础上，提出了一种掩模结构，即在联合模型中加入一个掩模句表示层。掩模向量来自检测模块的序列预测，我们将其应用于编码后的句子矩阵中，以突出代词零代词时隙附近的单词，从而得到掩模句子的表示形式，并应用最大池化函数将掩模句子矩阵映射到一个向量中。通过这种方式，我们迫使模型选择提到的候选词，其中这些候选词很可能同时出现在代词或零代词附近。这些词通常是动词（如爱、出版），但很少是介词（如通过）或形容词（如精彩）。基于上述两个模型，我们将学习的句子表示和提及表示相结合，构建了端到端的上下文重构模型，其中检测和解析模型是联合训练的。具体模型架构图如上图所示。

实验结果

在CQA数据集上，端到端的共同引用解析结果

CONLL2012数据集零代词候选排序结果

OntoNote数据集的端到端零代词解析结果

Double Kill

TILE: Improving Long Distance Slot Carryover in Spoken Dialogue Systems.
Contributor : 约翰斯·霍普金斯大学 && 亚马逊
Paper: https://www.aclweb.org/anthology/W19-4111
Code: None

文章摘要

会话状态跟踪是面向任务式对话系统的核心部分，跟踪对话状态的一种方法是时隙转移，关于时隙转移任务，先前的做法主要是为每个时隙做出独立决策的模型，但是其在较长的上下文对话中会导致较差的性能。为此本文提出对这些时隙进行共同建模。本文共提出了两种神经网络结构，一种是基于包含时隙排序信息的指针网络，另一种是基于transform网络，利用自注意机制对时隙相互依赖性进行建模。在内部对话基准数据集和公共DSTC2数据集上的实验结果，本文模型能够解决较长距离的时隙引用，并能够实现不错的性能。

本文两大看点

1、通过引入时隙相关性建模方法，改进了Naik等人的时隙转移模型体系结构。提出了两种基于指针网络和转换网络的神经网络模型，可以在时隙上进行联合预测。
2、在内部基准和公共数据集上对所提模型进行了详细的分析。实验表明，时隙的上下文编码和模拟时隙相关性对于提高长对话上下文中时隙转移的性能至关重要，具有自注意力的转换架构可提供了最佳总体性能。

模型结构介绍

总体架构

下图是上下文转移模型的一般架构

模型的一般架构

其中，Bi-LSTM用于将对话中的话语编码为固定长度的对话表示，还可以嵌入上下文时隙值。时隙编码器使用时隙键、值和距离为每个候选时隙创建固定长度的时隙嵌入。给定编码的时隙、意图和对话上下文，解码器选择与当前用户请求相关的时隙子集。

时隙编码器

距离可能包含重要信号。这个整数是奇数还是偶数，它提供了关于这个话语是由用户还是系统发出的信息。它越小，时隙就越接近当前的话语，因此隐含地更有可能被延续。基于这些思考，我们将距离编码为一个小向量（xdist，4维），并将其附加到整个时隙编码中： $x =[x_{key} ; x_{val} ; x_{dist}]$

时隙解码器

指针网络解码器：采用指针网络的结构（Vinyals等人，2015年）作为一种方法，对要转换时隙进行联合预测。指针网络是seq2seq模型的一个变种，它不是将输入序列转换为另一个输出序列，而是生成一系列输入序列的软指针（注意力向量），因此产生一个可变长度输入序列元素的顺序。模型图如下所示：

自注意力解码器：与指针网络类似，自注意力机制也能够模拟对话中所有时隙之间的关系，而不管它们各自的位置如何。为了计算任何给定时隙的表示，自注意力模型将其与对话中的其它时隙进行比较。这些比较的结果是注意力得分，它决定了其他每个时隙对给定时隙的表示应该贡献多少。

实验结果

内部数据集上不同距离时隙不同模型的转移性能（F1）

DSTC2数据集上不同距离时隙不同模型的转移性能（F1）

在内部数据集上，根据解析后的最终时隙数（y轴）和作为引用解析一部分的时隙数（x轴），绘制比较不同候选子集中模型性能（f1）的图。

ACED

Attention

更多自然语言处理相关知识，还请关注AINLPer公众号，极品干货即刻送达。

最后编辑于：2020.01.18 00:10:08

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,802评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,109评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,683评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,458评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,452评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,505评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,901评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,550评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,763评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,556评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,629评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,330评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,898评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,897评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,140评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,807评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,339评论 2赞 342

「自然语言处理（NLP）论文解读」对话语境重构【滑铁卢大学&&华为】、会话状态跟踪【霍普金斯&&亚马逊】

引言

First Blood

文章摘要

本文三大看点

本文方法介绍

本文方法原理介绍

模型结构介绍

实验结果

Double Kill

文章摘要

本文两大看点

模型结构介绍

总体架构

时隙编码器

时隙解码器

实验结果

ACED

Attention

推荐阅读更多精彩内容