论文-Encoder-decoder with focus-mechanism for sequence labelling based spoken language understandin...

1.简称

论文《Encoder-decoder with focus-mechanism for sequence labelling based spoken language understanding》简称BLSTM-LSTM (focus)，作者：Su Zhu and Kai Yu(Key Laboratory of Shanghai Education Commission for Intelligent Interaction and Cognitive Engineering)，经典的SLU论文（Semantic Frame）。

2. 摘要

本文研究了编码器-解码器的框架，并着重于基于序列标签的口语理解。

我们引入双向长短期记忆-长短期记忆网络（BLSTM-LSTM）作为编码器-解码器模型，以充分利用深度学习的力量。在序列标记任务中，输入和输出序列是逐字对齐的，而注意机制无法提供准确的对齐方式。为了解决这个限制，我们为编码器-解码器框架提出了一种新颖的聚焦机制。

在标准ATIS数据集上进行的实验表明，具有聚焦机制的BLSTM-LSTM优于标准的BLSTM和基于注意力的编码器-解码器，从而定义了最新技术。进一步的实验还表明，所提出的模型对语音识别错误具有更强的鲁棒性。

3. 引言

在口语对话系统中，口语理解（SLU）是将用户话语解析为相应语义概念的关键组成部分。序列标记中输入话语的语义解析通常包括三个任务：域检测，意图确定和时隙填充。在本文中，我们专注于基于序列标记的时隙填充任务，该任务为句子中的每个单词分配一个语义时隙标签。 SLU的主要挑战是性能改进及其对ASR错误的鲁棒性。

插槽填充是SLU获得语义插槽及其关联值的主要任务。通常，将时隙填充视为序列标签（SL）问题，以预测发声中每个单词的空位标签。作为一个典型的对齐任务，图1中显示了一个时隙填充的示例。目标是将单词“Boston”标记为出发城市，将“New York”标记为到达城市，并将“today”标记为日期。

解决此问题的标准方法包括生成模型，例如HMM / CFG复合模型，隐藏矢量状态（HVS）模型和判别式或条件模型，例如条件随机场（CRF）。，以及支持向量机（SVM）。最近，由于许多非常成功的连续空间，神经网络和深度学习方法的推动，许多神经网络体系结构已应用于此任务，例如简单的递归神经网络（RNN），卷积神经网络（CNN），长期短期记忆（LSTM）以及不同训练准则的变化。最新的论文使用基于LSTM的序列模型的变体，包括编码器-解码器，外部存储器。

受注意力机制在自然语言处理（NLP）领域成功的启发，我们首先应用了基于注意力的编码器-解码器，将基于序列标记的SLU视为语言翻译问题。为了考虑以前和将来的信息，我们使用双向LSTM（BLSTM）对编码器进行建模，并使用单向LSTM对解码器进行建模。注意机制采用位置A周围的输入与位置B处的输出之间的匹配所提供的得分的加权平均值。序列标记任务中注意模型的主要限制有两个：

序列标签中的输入和输出对齐，而注意力模型对整个输入单词进行评分。
对齐可以通过注意力模型来学习，但是很难在序列标记任务中使用有限的带注释数据进行处理（与机器翻译不同，在机器翻译中，更容易获得配对数据）。

为了解决注意力机制在序列标记中的局限性，我们提出了聚焦机制，该机制强调了对齐的编码器的隐藏状态。

4. 核心

通过考虑过去的输入，单向LSTM无法解决未来输入的长距离依赖性。 BLSTM通过两个单向LSTM解决了这一缺点：处理原始输入字序列的前向传递；向后传递处理反向输入字序列。为了了解这些模型的优势，我们将介绍基于BLSTM-LSTM的编码器-解码器体系结构。

4.1 BLSTM-LSTM + Attention

我们遵循基于RNN的编码器/解码器。为了同时考虑以前的历史和未来的历史，我们将BLSTM用作编码器，将LSTM用作解码器。

编码器-解码器的重要扩展是添加一种注意力机制。我们采用了注意力模型。唯一的区别是我们预先使用BLSTM作为编码器。编码器通过BLSTM读入一个输入序列 $x=(x_1,x_2,...,x_{T_x})$ 并且生成 $T_x$ 隐藏状态。

双向隐藏状态输出

给定所有输入词和所有先前预测的语义标签 ${y_1，...，y_{t-1}}$ ，对解码器进行训练以预测下一个语义标签 $y_t$ ：

带有注意力机制的解码器

其中 $g$ 表示输出层（通常带有softmax）， $s_t$ 是解码器LSTM在时间 $t$ 的隐藏状态，其中 $f_d$ 设置为LSTM单位函数。 $c_t$ 表示用于根据不同的编码器隐藏状态生成标签 $y_t$ 的上下文信息，通常由注意力机制实现：

注意力计算方法

为了将该模型应用于序列标记任务，我们强制解码器生成的输出序列获得与输入字序列相同的长度。

4.2 Focus mechanism`(聚焦机制)`

如引言中所述，注意力机制在基于序列标记的SLU任务中面临两个限制。为了解决这些问题，我们提出了仅考虑对齐的编码器隐藏状态的聚焦机制，即： $\begin{cases} α_{ti}= 0, & \mbox{if }t \neq\mbox{i} \\ α_{ti}= 1, & \mbox{if }t=\mbox{i} \\ \end{cases}$

则： $c_t=h_t$

因此，没有必要通过利用注意力模型来学习对齐方式。具有注意和聚焦机制的编码器-解码器如图2所示。

5. 实验

5.1 Experimental Setup

我们使用ATIS语料库，该语料库已被SLU社区广泛用作基准。在ATIS中，句子及其语义位置标签以流行的输入/输出/开始（IOB）表示形式。图1中提供了一个示例句子。训练数据包含4978个句子和56590个单词。测试数据包括893个句子和9198个单词。我们随机选择了训练数据的80％用于模型训练，其余20％用于验证。

除了ATIS，我们还将模型应用于汽车导航领域的自定义中文数据集，该数据集包含用于训练的8000条话语，用于验证的2000条话语和用于测试的1944条话语。已使用IOB模式为每个单词手动分配了一个插槽。不仅要评估句子，还要评估自动语音识别（ASR）所产生的每个发音的最高假设。这些ASR顶部输出的单词错误率（WER）为4.75％，句子错误率（SER）为23.42％。

我们报告测试集上的F1分数，并使用在验证数据上获得最佳F分数的参数。我们交易
与由只用一个在训练组中为单次出现的标记的任何词语的测试集<unk >。

我们实现的LSTM神经网络。如前所述，编码器-解码器模型使用BLSTM进行编码，使用LSTM进行解码。为了进行训练，网络参数根据均匀分布（-0.2，0.2）随机初始化。我们将随机梯度下降（SGD）用于更新参数。为了增强我们提出的模型的泛化能力，我们在训练阶段以0.5的概率应用了dropout。

对于编码器/解码器，根据经验，我们使用从左到右的beam search进行波束大小为2的解码。

我们尝试不同的学习率，范围从0.004到0.04，类似于网格搜索。我们将学习率保持了100个时期，并在验证集上保存了能够提供最佳性能的参数，该参数是在每个训练时期之后进行测量的。

5.2 Results on the ATIS Dataset

表1显示了ATIS数据集上的结果。对于所有架构，我们将词嵌入的维数设置为100，将隐藏单元的数量设置为100。我们仅将当前词用作输入，而没有任何上下文词。同时考虑过去和未来历史的BLSTM的表现优于LSTM（+ 2.03％）。基于注意力的BLSTM-LSTM模型的F1-得分低于BLSTM（-2.7％）。我们认为原因是序列标记问题是一项任务，其输入和输出序列对齐。

只有有限的数据，很难通过注意力机制准确地学习对齐。我们尝试通过将句子中每个特定位置的值随机替换为原始比例的10倍来扩展ATIS的训练数据。例如，“Flights from Boston”可以扩展为“Flights from New York”，“Flights from Los Angeles”等。受关注的BLSTM-LSTM的F1-得分达到95.19％，而其他方法则没有从中受益扩展训练集。

与在ATIS数据集上发布的结果相比，我们的方法优于表2中所示的先前发布的F1得分。表2总结了最近发布的关于ATIS插槽填充任务的结果，并将其与我们提出的方法的结果进行了比较。我们提出的模型达到了最先进的性能1，但在统计上并不显著。

5.3 Results on Chinese Navigation Dataset

为了研究具有注意力或聚焦机制的BLSTM-LSTM体系结构的鲁棒性，我们对实验设置中描述的中文导航数据集进行了额外的实验。对于神经网络架构，我们还将词嵌入的维数设置为100，将隐藏单元的数量设置为100。此外，与使用上下文窗口大小为5的CRF相比，仅将当前词用作LSTM输入。我们在自然文本句子（没有任何语音识别错误）上训练模型，并不仅对手动转录（正确的文本句子）进行测试，而且还对语音识别系统的主要假设（包括识别错误）进行了测试。

表3显示结果。由于输出语句级别的优化，CRF基线似乎与BLSTM竞争。相比之下，LSTM不符合我们的期望。因为此数据集中的主要挑战是检测较长的短语，例如位置名称（长度从1到24个单词不等）。它遭受着对过去和未来输入的长期依赖。随后，BLSTM解决了这个问题。

具有聚焦机制的BLSTM-LSTM在自然句子和ASR的最高假设上均明显优于BLSTM（显着水平5％）。带有聚焦机制的BLSTM-LSTM编码器/解码器似乎对ASR错误更健壮。一个可能的原因是，标签依赖性解码器中的，有助于忽略编码器转换后的错误。 CRF还可以通过解析ASR输出来对标签依赖性进行建模，并优于BLSTM。

将来，我们想研究具有聚焦机制的BLSTM-LSTM来处理其他序列标记任务（例如，词性标记，命名实体识别）。

6. 重点论文

Ye-Yi Wang, Li Deng, and Alex Acero, “Spoken language understanding,” Signal Processing Magazine, IEEE, vol. 22, no. 5, pp. 16–31, 2005.
Yulan He and Steve Young, “A data-driven spoken language understanding system,” in IEEE Workshop on Automatic Speech Recognition and Understanding. IEEE, 2003, pp. 583–588.
John Lafferty, Andrew McCallum, and Fernando CN Pereira, “Conditional random fields: Probabilistic models for segmenting and labeling sequence data,” in ICML, 2001.
K Taku and M Yuji, “Chunking with support vector machine,” in Proceedings of North American chapter of the association for computational linguistics, 2001, pp. 192–199.
Gre ́goireMesnil,XiaodongHe,LiDeng,andYoshua Bengio, “Investigation of recurrent-neural-network architectures and learning methods for spoken language understanding.,” in INTERSPEECH, 2013, pp. 3771– 3775.
Puyang Xu and Ruhi Sarikaya, “Convolutional neural network based triangular crf for joint intent detection and slot filling,” in 2013 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU). IEEE, 2013, pp. 78–83.
Kaisheng Yao, Baolin Peng, Yu Zhang, Dong Yu, Geof- frey Zweig, and Yangyang Shi, “Spoken language understanding using long short-term memory neural net- works,” in 2014 IEEE Spoken Language Technology Workshop (SLT). IEEE, 2014, pp. 189–194.
Ngoc Thang Vu, Pankaj Gupta, Heike Adel, and Hinrich Schu ̈tze, “Bi-directional recurrent neural network with ranking loss for spoken language understanding,” in 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2016.

7. 代码编写

# 后续追加代码分析

参考文献

Zhu, S., & 0004, K. Y. (2017). Encoder-decoder with focus-mechanism for sequence labelling based spoken language understanding. Icassp, 5675–5679.