1. 简称
论文《Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling》简称Attention BiRNN,作者Bing Liu(Electrical and Computer Engineering, Carnegie Mellon University)。经典的NLU论文(Semantic Frame)。
2. 摘要
基于注意力的编解码器神经网络模型最近在机器翻译和语音识别中显示出令人鼓舞的结果。
在这项工作中,我们提出了一种基于注意力的神经网络模型,用于联合意图检测和插槽填充,这对于许多语音理解和对话系统都是至关重要的步骤。与机器翻译和语音识别不同,对齐在插槽填充中是显式的。我们探索将对齐信息整合到编码器-解码器框架中的不同策略。
从编码器-解码器模型中的注意力机制中学习,我们进一步建议将注意力引入基于对齐的RNN模型。
这种关注为意图分类和插槽标签预测提供了更多信息。我们的独立任务模型在基准ATIS任务上实现了最新的意图检测错误率和插槽填充F1分数。与独立任务模型相比,我们的联合训练模型在意图检测上进一步获得了0.56%的绝对(相对值23.8%的)相对误差减少,在插槽填充上的绝对增益为0.23%。
3. 引言
口语理解(SLU)系统是口语对话系统中的重要组成部分。 SLU系统通常涉及识别说话者的意图并从自然语言查询中提取语义成分,这两项任务常常被称为意图检测和插槽填充。
意图检测和插槽填充通常分别进行。意图检测可以看作是语义话语分类问题,可以应用流行的分类器,例如支持向量机(SVM)和深度神经网络方法
。插槽填充可以视为序列标记任务。解决序列标记问题的流行方法包括最大熵马尔可夫模型(MEMM)
,条件随机场(CRF)
和递归神经网络(RNN)
。文献也提出了用于意图检测和缝隙填充的联合模型。这种联合模型简化了SLU系统,因为只需训练和微调一个模型即可完成两项任务。
最近,编解码器神经网络模型已成功应用于许多序列学习问题,例如机器翻译
和语音识别
。编码器-解码器模型背后的主要思想是将输入序列编码为密集向量,然后使用该向量生成相应的输出序列。引入的注意力机制使编码器-解码器体系结构能够学会同时对齐和解码。
在这项工作中,我们研究了SLU模型如何从序列模型的强大建模能力中受益。当没有给出对齐信息时,基于注意力的编码器-解码器模型能够映射具有不同长度的序列。但是,在插槽填充中,对齐是显式的,因此基于对齐的RNN模型通常可以很好地工作。我们想研究基于注意和基于对齐的方法的组合。具体来说,我们想探索如何在编码器-解码器模型中最佳地利用插槽填充中的对齐信息,另一方面,是否可以通过以下关注机制进一步改善基于对齐的RNN缝隙填充模型:由编码器-解码器体系结构引入。此外,我们想研究如何在这种方案下共同模拟时隙填充和意图检测。
4. 背景
4.1 RNN for Slot Filling
插槽填充被当做一个序列标注问题,我们有训练样本并且我们想要去学习一个函数,将一个输入序列映射到相关联的标签序列。在插槽填充中,输入序列和标签序列时相同长度,因此是显示对齐的。
RNN已广泛用于许多序列建模问题。在时隙填充的每个时间步,RNN都会读取一个单词作为输入,并根据输入和发出的输出序列中的所有可用信息来预测其对应的时隙标签。对模型进行训练以找到最佳的参数集,该参数集使可能性最大化:
其中代表输入单词序列,代表时间步之前的输出标签序列。在推断过程中,我们希望在给定输入序列的情况下找到最佳标签序列:
4.2 RNN Encoder-Decoder
编码器和解码器是两个单独的RNN。编码器读取向量c的输入序列。该向量对整个源序列的信息进行编码,并在解码器中用于生成目标输出序列。解码器将输出序列的概率定义为:
代表时间步之前的输出标签序列。与用于序列标记的RNN模型相比,RNN编码器/解码器模型能够将序列映射到具有不同长度的序列。源序列和目标序列之间没有明确的比对。稍后在引入的注意力机制使编码器/解码器模型能够学习软对齐并同时进行解码。
5. 核心
在本节中,我们首先描述将对齐信息集成到编码器-解码器体系结构以进行时隙填充和意图检测的方法。接下来,我们描述了将注意力机制从编码器-解码器架构引入基于对齐的RNN模型的方法。
5.1 Encoder-Decoder Model with Aligned Inputs
用于联合意图检测和时隙填充的编码器-解码器模型如图2所示。在编码器侧,我们使用双向RNN。双向RNN已成功应用于语音识别
和`口语理解。我们使用LSTM 作为基本的递归网络单元,因为它具有比简单RNN更好地建模长期依赖关系的能力。
在时隙填充中,我们希望将单词序列映射到其相应的空位标签序列。双向RNN编码器向前和向后读取源字序列。前向RNN以其原始顺序读取单词序列,并在每个时间步生成隐藏状态。类似地,后向RNN以相反的顺序读取单词序列,并生成一系列隐藏状态。在每个时间步骤,最终的编码器隐藏状态是前向状态和后向隐藏状态,即的串联。
前向和后向编码器RNN的最后状态携带整个源序列的信息。我们使用后向编码器RNN的最后状态来计算初始解码器隐藏状态。解码器是单向RNN。同样,我们将LSTM单元用作基本RNN单元。在每个解码步骤中,根据先前解码器状态,先前发出的标签,对齐的编码器隐藏状态和上下文向量来计算解码器状态:
其中上下文向量是作为编码器状态的加权和而计算的:
并且:
是一个前向神经网络。在每个解码步骤,显式对齐的输入为编码器状态。上下文向量为解码器提供了额外的信息,并且可以看作是一连串的加权特征。
对于意图检测和时隙填充的联合建模,我们添加了用于意图检测(或意图分类)任务的附加解码器,该解码器与时隙填充解码器共享同一编码器。在模型训练期间,两个解码器的成本都将反向传播到编码器。意图解码器仅生成一个输出,该输出是句子的意图类别分布,因此不需要对齐。目标解码器状态是共享的初始解码器状态(对整个源序列的信息进行编码)和上下文向量(其表示源解码器要注意的部分源序列)的函数。
5.2 Attention-Based RNN Model
用于联合意图检测和时隙填充的基于注意力的RNN模型如图3所示。
在用于序列标记的双向RNN中,每个时间步的隐藏状态都携带整个序列的信息,但是信息可能会随着向前和向后传播而逐渐丢失。因此,在进行时隙标签预测时,我们不仅希望在每个步骤中仅使用对齐的隐藏状态,还希望查看是否使用上下文向量为我们提供了任何其他支持信息,尤其是那些需要长期依赖的信息未被隐藏状态完全捕获。
在提出的模型中,双向RNN(BiRNN)沿正向和反向读取源序列。我们将LSTM单元用作基本RNN单元。插槽标签依赖关系在前向RNN中建模。类似于上述编码器-解码器体系结构中的编码器模块,每个步骤的隐藏状态是前向状态和后向状态的串联,。每个隐藏状态都包含整个输入单词序列的信息,并在步骤着重关注单词周围的部分。然后将此隐藏状态与上下文向量组合以产生标签分布,其中上下文向量计算为RNN隐藏状态的加权平均值。
对于意图检测和时隙填充的联合建模,我们重用了双向RNN的预先计算的隐藏状态来生成意图类分布。如果不注意,我们对隐藏状态随时间应用最大池化
,然后进行逻辑回归以进行意图分类。如果启用了注意力,我们将取隐藏状态随时间的加权平均值。
与利用显式对齐输入的基于注意力的编码器/解码器模型相比,基于注意力的RNN模型具有更高的计算效率。在模型训练期间,编码器-解码器插槽填充模型两次读取输入序列,而基于注意力的RNN模型只读取一次输入序列。
6. 实验
6.1 Data
ATIS(航空公司旅行信息系统)数据集被广泛用于SLU研究中。数据集包含预订航班的人员的录音。在这项工作中,我们遵循中使用的ATIS 语料设置。训练集包含来自ATIS-2和ATIS-3语料库的4978语音,而测试集包含来自ATIS-3 NOV93和DEC94数据集的893语音。共有127个不同的插槽标签和18个不同的意图类型。我们使用F1分数评估系统在插槽填充方面的性能,并使用分类错误率评估意图检测的性能。
我们获得了用于SLU评估的另一个ATIS文本语料库。该语料库包含5138话语,并标注了意图和插槽标签。总共有110种不同的插槽标签和21种意图类型。我们使用10倍交叉验证设置。
6.2 Training Procedure
LSTM单元用作实验中的基本RNN单元。给定数据集的大小,我们将LSTM单元的单位数设置为128。默认的遗忘门偏置设置为1。我们在提出的模型中仅使用LSTM的一层,而通过堆叠LSTM层的更深层模型将在以后的工作中进行探索。
大小为128的单词嵌入在批量大小为16的小批量训练过程中被随机初始化和微调。在模型训练过程中,对非经常性连接应用Dropout 为0.5,以进行正则化。梯度裁剪的最大范数设置为5。
6.3 Independent Training Model Results:Slot Filling
我们首先在独立的任务训练模型上报告结果。表1显示了使用我们提出的架构的插槽填充F1分数。表2将我们建议的插槽填充模型性能与先前报告的结果进行了比较。
在表1中,第一组结果是针对5.1节中描述的编码器-解码器模型的变化。不足为奇的是,没有利用显式对齐信息的纯基于关注的槽位填充模型的效果很差。
让模型从训练数据中学习对准似乎不适用于插槽填充任务。第2行和第3行显示了利用对齐输入的非注意力和基于注意力的编码-解码器模型的F1分数。
在平均和最佳分数上,基于注意力的模型给出的F1得分要比基于非注意力模型的F1得分略好。通过调查模型学习到的注意力,我们发现注意力权重更有可能在源序列中的各个单词之间平均分配。在少数情况下,我们会观察到解码器对输入序列的关注(图4),这可能部分解释了启用注意力后所观察到的性能提升。
表1中的第二组结果是针对3.2节中描述的双向RNN模型的。与之前的结果类似,我们在使用注意力的模型上观察到F1分数略有提高。上下文向量对时隙填充的贡献不是很明显。似乎对于这种级别的序列长度(此ATIS语料库的平均句子长度为11),双向RNN产生的隐藏状态能够编码制作该时隙所需的大多数信息用于标签预测。
表2将我们的槽位填充模型与以前的方法进行了比较。我们两种模型架构的结果均优于先前报告的最佳F1分数。
6.4 Independent Training Model Results:Intent Detection
表3比较了我们的意图模型和先前方法之间的意图分类错误率。我们提出的模型的意向错误率大大优于最新结果。基于注意力的编解码器意图模型改进了双向RNN模型。这可能归因于从编码器传递的序列级别信息以及解码器RNN中的非线性附加层。
6.5 Joint Model Results
表4显示了我们与先前报告的结果相比,在意图检测和插槽填充方面的联合训练模型性能。
为了进一步验证我们的联合训练模型的性能,我们将提出的模型应用于其他ATIS数据集,并通过10倍交叉验证对它们进行评估。编码器-解码器和基于注意力的RNN方法均取得了可喜的结果。
7. 重点论文
- P. Haffner, G. Tur, and J. H. Wright, “Optimizing svms for complex call classification,” in Acoustics, Speech, and Signal Process- ing, 2003. Proceedings.(ICASSP’03). 2003 IEEE International Conference on, vol. 1. IEEE, 2003, pp. I–632.
- R. Sarikaya, G. E. Hinton, and B. Ramabhadran, “Deep belief nets for natural language call-routing,” in Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International Conference on. IEEE, 2011, pp. 5680–5683.
- A. McCallum, D. Freitag, and F. C. Pereira, “Maximum entropy markov models for information extraction and segmentation.” in ICML, vol. 17, 2000, pp. 591–598.
- C. Raymond and G. Riccardi, “Generative and discriminative algorithms for spoken language understanding.” in INTERSPEECH, 2007, pp. 1605–1608.
- I. Sutskever, O. Vinyals, and Q. V. Le, “Sequence to sequence learning with neural networks,” in Advances in neural information processing systems, 2014, pp. 3104–3112.
- W. Chan, N. Jaitly, Q. V. Le, and O. Vinyals, “Listen, attend and spell,” arXiv preprint arXiv:1508.01211, 2015.
- D. Bahdanau, K. Cho, and Y. Bengio, “Neural machine translation by jointly learning to align and translate,” arXiv preprint arXiv:1409.0473, 2014.
- X.Zhang,J.Zhao,andY.LeCun,“Character-levelconvolutional networks for text classification,” in Advances in Neural Informa- tion Processing Systems, 2015, pp. 649–657.
8. 代码编写
# 后续追加代码分析
参考文献
- Liu, B., & Lane, I. (2016). Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling. Interspeech.