论文-A Novel Bi-directional Interrelated Model for Joint Intent Detection and Slot Filling(SF-ID Ne...

1. 简称

论文《A Novel Bi-directional Interrelated Model for Joint Intent Detection and Slot Filling》，作者Haihong E（Beijing University of Posts and Telecommunications, Beijing, China），简称SF-ID Network，经典的NLU论文（Semantic Frame）。

2. 摘要

口语理解（SLU）系统包括两个主要任务，插槽填充（SF）和意图检测（ID）。这两个任务的联合模型正在成为SLU中的一种趋势。但是，现有联合模型中未建立意图和插槽之间的双向关联连接。在本文中，我们提出了一种用于联合意图检测和插槽填充的双向关联模型。我们引入了SF-ID网络来建立两个任务的直接连接，以帮助它们相互促进。此外，我们在SF-ID网络内部设计了一种全新的迭代机制，以增强双向相互关联的连接。实验结果表明，与最新模型相比，在ATIS和Snips数据集上，我们模型的句子级语义框架准确性相对提高了3.79％和5.42％。

3. 引言

口语理解在口语对话系统中起着重要作用。 SLU旨在从用户话语中提取语义。具体而言，它可以识别意图并捕获语义成分。这两个任务分别称为意图检测和时隙填充（Tur和De Mori，2011）。例如，表1中显示了从ATIS语料库中抽样的“what flights leave from phoenix”这句话。可以看出，该句子中的每个单词都对应一个插槽标签，并且为整个句子分配了特定的意图。

传统的管道方法分别管理上述两个任务。目的检测被视为预测目的标签的语义分类问题。支持向量机（SVM）（Haffner等，2003）和递归神经网络（RNN）（Lai等，2015）等通用方法都可以应用。建议将插槽填充作为序列标记任务。流行的方法包括条件随机场（CRF）（Raymond和Riccardi，2007），长短期记忆（LSTM）网络（Yao等人，2014）。

考虑到错误传播造成的管道方法性能不尽人意，趋势是针对意图检测和缝隙填充任务开发联合模型（Chen等，2016a； Zhang和Wang，2016）。 Liu and Lane（2016）提出了一种基于注意力的RNN模型。但是，它只是应用了联合损失函数来隐式链接两个任务。 Hakkani-Tür et al.（2016年）引入了一个RNN-LSTM模型，其中没有建立槽和意图之间的显式关系。 Goo et al.（2018年）提出了一种槽控模型，该模型将意图信息应用于槽填充任务并获得了卓越的性能。但是在意图检测任务中不使用插槽信息。双向直接连接仍未建立。实际上，槽位和意图是相关的，并且两个任务可以相互加强。本文提出了一个由SF子网和ID子网组成的SF-ID网络。 SF子网将意图信息应用于插槽填充任务，而ID子网将插槽信息用于意图检测任务。在这种情况下，可以为两个任务建立双向的相互关联的连接。我们的贡献概括如下：

我们提出一个SF-ID网络，以建立用于插槽填充和意图检测任务的相互关联的机制。特别是，提出使用新颖的ID子网将插槽信息应用于意图检测任务。
我们在SF-ID网络内部建立了一种新颖的迭代机制，以增强意图和插槽之间的联系。
在两个基准数据集上的实验表明了该模型的有效性和优越性。

4. 核心

本节首先介绍我们如何通过注意机制获取插槽上下文和意图的集成。然后，它提出了一个SF-ID网络，该网络在意图和插槽之间建立了直接连接。基于双向LSTM（BLSTM）的模型架构如图2所示。

4.1 Integration of Context`(上下文整合)`

在SLU中，单词标签不仅取决于相应的术语，还取决于上下文（Chen et al. 2016b）。意图标签也与话语中的每个元素相关。为了捕获这种依赖，引入了注意机制。

Slot filling:第 $i$ 个时隙上下文向量 $c^i_{slot}$ 是BLSTM隐藏状态 $（h_1，...，h_t）$ 的加权和：

$c_{slot}^i=\sum_{j=1}^T\alpha_{i,j}^Sh_j\tag{1}$

其中注意力权重 $\alpha$ 的获取方法与（Liu and Lane，2016）中相同。

Intent detection:意图上下文向量 $c^i_{intent}$ 的计算方法与 $c_{slot}$ 相同，特别是它只为整个句子生成一个意图标签。

4.2 SF-ID Network

SF-ID网络由SF子网和ID子网组成。 SF和ID子网的顺序可以自定义。根据两个子网的顺序，模型具有两种模式：SF-First和ID-First。前一个子网可以通过中间向量对后一个子网产生积极的影响。

4.2.1 SF-First Mode

在SF优先模式下，首先执行SF子网。我们在SF子网中应用了意图上下文向量 $c_{intent}$ 和插槽上下文向量 $c_{slot}$ ，并生成了时隙增强向量 $r_{slot}$ 。然后，将新形成的向量 $r_{slot}$ 馈送到ID子网以带来时隙信息。

SF subnet:SF子网在计算相关因子 $f$ 时应用意图和时隙信息（即 $c_{intent}$ 和 $c_{slot}$ ），该因子可以指示意图和时隙的关系。该相关因子 $f$ 定义为：

$f=\sum V * tanh(c_{slot}^i+W*c_{intent})\tag{2}$

另外，我们引入由（3）定义的时隙增强向量 $r_{slot}$ ，并将其馈送到ID子网以带来时隙信息。

$r_{slot}^i=f · c_{slot}^i \tag{3}$

ID subnet:我们介绍了一个新颖的ID子网，该子网将插槽信息应用于意图检测任务。我们相信，插槽代表单词级别的信息，而意图代表句子级别。混合信息可以满足意图检测任务的要求。插槽增强向量 $r_{slot}$ 被馈送到ID子网以生成增强向量 $r$ ，其定义如下：

$r=\sum_{i=1}^T\alpha_i · r_{slot}^i\tag{4}$

$r^i_{slot}$ 的权重 $\alpha_i$ 计算为：

$\alpha_i=\frac{exp(e_{i,i})}{\sum_{j=1}^Texp(e_{i,j})}\tag{5}$
$e_{i,j}=W*tanh(V_1*r_{slot}^i+V_2*h_j+b)\tag{6}$

我们还介绍了一种意图增强向量 $r_{intent}$ ，它是根据增强向量 $r$ 和意图上下文向量 $c_{intent}$ 之和计算得出的。

$r_{intent}=r+c_{intent}\tag{7}$

Iteration Mechanism:意向增强向量 $r_{intent}$ 也可以馈入SF子网。实际上，此意图增强向量 $r_{intent}$ 可以改善关系因子 $f$ 的效果，因为它包含意图和广告位的混合信息，并且（2）可以替换为：

$f=\sum V*tanh(c_{slot}^i+W*r_{intent})\tag{8}$

随着关系因子 $f$ 的变化，获得了新的时隙增强矢量 $r_{slot}$ 。因此，ID子网可以使用新的 $r_{slot}$ 并导出新的 $r_{intent}$ 。在这种情况下，SF子网和ID子网都将更新，一次迭代完成。

从理论上讲，SF子网和ID子网之间的交互可以无限地重复，这在我们的模型中被称为迭代机制。意向和时隙增强向量充当SF子网和ID子网之间的链接，并且它们的值在迭代过程中不断变化。

在迭代机制之后， $r_{intent}$ 和 $r_{slot}$ 分别参与intent和slot的最终预测。对于意图检测任务，在最终意图预测中利用了BLSTM的意图增强矢量 $r_{intent}$ 和最后一个隐藏状态 $h_T$ ：

$y_{intent}=softmax(W_{intent}^{hy}concat(h_T,r_{intent}))\tag{9}$

对于插槽填充任务，隐藏状态 $h_i$ 与相应的插槽增强向量绑定，在第 $i$ 个时隙标签预测中使用 $r_{slot}^i$ 。插槽没有CRF层的最终表达式是：

$y_{slot}^i=softmax(W_{slot}^{hy}concat(h_i,r_{slot}^i))\tag{10}$

4.2.2 ID-First Mode

在ID优先模式下，ID子网先于SF子网执行。在这种情况下，第一次迭代中ID子网的计算存在一些差异。

ID subnet:与Slot-First模式不同，增强向量 $r$ 由BLSTM的隐藏状态和上下文向量获取。因此，（4）（5）（6）可以替换为：

$r=\sum_{i=1}^T\alpha_i·h_i\tag{11}$
$\alpha_i=\frac{exp(e_{i,i})}{\sum_{j=1}^Texp(e_{i,j})}\tag{12}$
$e_{i,j}=W*\sigma(V_1*h_i+V_2*c_{slot}^j+b)\tag{13}$

意图增强向量 $r_{intent}$ 仍然由（7）定义，并将其馈送到SF子网。

SF subnet:意向增强向量rinte被馈送到SF子网，并且关系因子f的计算方法与（8）相同。其他算法详细信息与SF-First模式相同。

Iteration Mechanism:除了两个子网的顺序外，ID-First模式下的迭代机制与SF-First模式下的迭代机制几乎相同。

4.2.3 CRF layer

插槽填充本质上是一个序列标记问题。对于序列标记任务，考虑邻域中标记之间的相关性是有益的。因此，我们在SF子网输出上方添加CRF层，以联合解码话语标签的最佳链。

5. 实验

Dataset:我们使用两个公共数据集进行了实验，即广泛使用的ATIS数据集(Hemphill et al. 1990年)和被称为Snips(Coucke et al. 2018年)的自定义意图引擎数据集，该数据集是由Snips个人语音助理收集的。与ATIS数据集相比，Snips数据集词汇量大、跨域意图复杂。

Evaluation Metrics:我们实验中使用三个评估指标。对于插槽填充任务，将应用F1分数。对于意图检测任务，要利用准确性。此外，句子级别的语义框架准确性（句子准确性）用于指示这两项任务的总体性能，这是指整个语料库中其插槽和意图均得到正确预测的句子所占的比例。

Training Details:在我们的实验中，BLSTM网络的层大小设置为64。在训练过程中，应用了Adam优化算法（Kingma and Ba，2014）。此外，学习率以 $\eta_t=\eta_0/（1 + pt）$ 更新，衰减率为 $p = 0.05$ ，初始学习率为 $\eta_0= 0.01$ ， $t$ 表示完成的步数。

Model Performance:表2给出了模型的性能，其中可以看出，我们的模型在所有三个方面都优于基线：槽位填充（F1），意图检测（Acc）和句子准确性（Acc）。特别是，在句子级语义框架结果上，ATIS和Snips的相对改进分别约为3.79％和5.42％，表明SF-ID网络可以通过引入槽和意图的双向关联机制显著提高SLU性能。

Analysis of Seperate Subnets:我们分析了单独子网的影响，得到的结果如表3所示。实验是在增加CRF层的情况下进行的。可以看出，仅包括SF子网和ID子网的两种模型都比BLSTM模型获得了更好的结果。因此，我们认为SF子网和ID子网在性能提升方面都有重要意义。

此外，我们还分析了SF和ID子网独立的情况，即SF和ID子网没有交互的情况。我们可以看到，它也取得了很好的效果。但是，SF-ID网络允许两个子网进行交互，取得了更好的效果。这是因为双向关联机制有助于两个子网相互促进，从而提高了两个任务的性能。

Analysis of Model Mode:在表2中，可以看出ID-First模式在插槽填充任务中实现了更好的性能。这是因为ID-First模式将时隙填充任务视为更重要的任务，因为SF子网可以利用从ID子网输出的意图信息。同样，SF-First模式在意图检测任务中表现更好。通常，两种模式之间的差异很小。

Iteration Mechanism:迭代机制的效果如图3所示。实验以SF-First模式进行。句子准确性被应用为性能度量，因为它可以反映总体模型性能。当ATIS和Snips数据集上的迭代次数均为3时，它会逐渐增加并达到最大值，表明有效的交互机制的重要性。它可以归功于迭代机制，它可以增强意图和槽之间的连接。之后，句子的准确度逐渐降低，而下降幅度很小。总而言之，具有适当迭代次数的迭代机制可以使SLU性能受益。

CRF Layer:从表2中可以看出，CRF层对总体模型性能具有积极影响。这是因为CRF层可以在句子级别获得最大可能的标签序列。但是，CRF层主要关注序列标记问题。因此，插槽填充任务的改进显然超过了意图检测任务的改进。通常，通过CRF层可以提高性能。

我们提出了一种新颖的SF-ID网络，该网络为意图检测和时隙填充任务提供了双向相互关联的机制。并提出了一种迭代机制来增强意图和槽之间的相互联系。双向相互关联的模型可帮助两个任务相互促进。

6. 重点论文

Yun-Nung Chen, Dilek Hakkani-Tu ̈r, Go ̈khan Tu ̈r, Jianfeng Gao, and Li Deng. 2016b. End-to-end memory networks with knowledge carryover for multi-turn spoken language understanding. In IN- TERSPEECH, pages 3245–3249.
Dilek Hakkani-Tu ̈r, Go ̈khan Tu ̈r, Asli Celikyilmaz, Yun-Nung Chen, Jianfeng Gao, Li Deng, and Ye- Yi Wang. 2016. Multi-domain joint semantic frame parsing using bi-directional rnn-lstm. In Inter- speech, pages 715–719.
Bing Liu and Ian Lane. 2016. Attention-based recurrent neural network models for joint intent detection and slot filling. arXiv preprint arXiv:1609.01454.
Kaisheng Yao, Baolin Peng, Yu Zhang, Dong Yu, Ge- offrey Zweig, and Yangyang Shi. 2014. Spoken language understanding using long short-term memory neural networks. In Spoken Language Technology Workshop (SLT), 2014 IEEE, pages 189–194. IEEE.
Xiaodong Zhang and Houfeng Wang. 2016. A joint model of intent determination and slot filling for spoken language understanding. In IJCAI, pages 2993–2999.

7. 代码编写

本文源码地址：https://github.com/ZephyrChenzf/SF-ID-Network-For-NLU

# 后续追加代码分析

参考文献

E, H., Niu, P., Chen, Z., & Song, M. (2019). A Novel Bi-directional Interrelated Model for Joint Intent Detection and Slot Filling. ACL.

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,293评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,604评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,958评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,729评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,719评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,630评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,000评论 3赞 397
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,665评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,909评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,646评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,726评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,400评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,986评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,959评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,197评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,996评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,481评论 2赞 342