1. 简称
论文《A Self-Attention Joint Model for Spoken Language Understanding in Situational Dialog Applications》,作者Mengyang Chen(ByteDance Corporation, China)
,经典的NLU论文(Semantic Frame)
。
2. 摘要
无
3. 引言
口语理解(SLU)是面向目标的对话系统中的重要组成部分。它通常涉及识别说话者的意图并从用户话语中提取语义槽位,这被称为意图检测(ID)和空位填充(SF)。表I展示了一个来自航空旅行信息系统(ATIS)语料库的示例。
近年来,人们对SLU问题进行了深入研究。但是,这些方法只是在语法上限制了SF结果,独立地解决了ID和SF,或者没有充分利用两个任务的相互影响。本文提出了一个具有条件随机场(CRF)层和先验掩码的多头自注意力模型。
实验表明,与最新模型相比,我们模型的有效性。同时,最近几年中国的在线教育取得了长足的进步。但是,很少有用于学生学习外语的智能教育对话应用程序。因此,我们设计了一个智能对话机器人,该机器人配备了不同的场景设置,可以帮助学生学习交流技能。
我们提出了一个联合模型,该模型使用多头局部自注意来提取共享特征,使用掩码门控机制来探索输出的相关性,并使用CRF来约束SF输出,以完美地解决该问题。
4. 核心
我们在本节中介绍我们的模型,概述为图一。第一层将输入序列映射成向量,通过把词级别嵌入和从BI-LSTM中获取字级别的嵌入连接起来。其中是序列中单词索引。由于上下文信息(尤其是相邻单词)在序列标记中很有用,因此我们采用多头局部自注意来提取上下文感知特征。局部上下文特征是和注意力输出计算公式为:
其中和是用于第个词和第个头的局部自注意力的第一层和第二层权重。Bi-LSTM层产生,将其用于使用多层完全连接分类器对意图进行分类。
在训练期间使用了交叉熵损失,并且意图标签对应于在预测期间给出最高概率的索引。
隐藏状态也被发送到类似的多头本地自我关注结构以生成。由于在不同意图下的槽分布是不同的,我们采用一个先验掩码,它是一个由意图给出槽的条件概率分布。我们将掩码和意图输出相乘,将结果与连接起来,最后放入一个CRF层去获取受约束的槽结果,我们把当做注意力的输出矩阵的得分。表示第个词的标签的得分,我们定义得分函数为:
所有可能的标签序列上的softmax产生序列的概率。我们在训练过程中最大化正确标签序列的对数概率。解码时,对得分最高的输出序列进行预测。
5. 实验
为了评估所提出模型的效率,我们对ATIS和Snips数据集进行了实验,这些数据集被广泛用作SLU研究的基准。 ATIS包含预订机票的人的录音。片段是从个人语音助手收集的。
插槽填充任务的性能由F1分数衡量,而意图检测任务则以预测精度进行评估。表II中列出了针对其他方法的模型结果。与最新方法相比,我们的方法在两个数据集上的ID分别提高了0.14%和0.49%,在SF中分别提高了0.02%和0.04%。
6. 实际应用
在过去的很长一段时间里,非英语母语的学生在语法或阅读理解上花费了太多的时间,以至于他们要么专注于言语影子,要么专注于简单的对话,而没有复杂的对话状态跟踪,从而不能帮助学生流利地表达和处理复杂场景下的对话。
为了帮助K12学生更好地处理旅行、购物和点餐等现实场景,我们设计了一个对话应用程序。该框架实际上是一个标准的面向目标的对话系统,如图4所示。首先,Agent采用前面讨论的SLU方法来分析学生的意图和槽值。其次,利用基于规则的对话跟踪技术记录会话状态变化,并做出相应的动作。最后,使用预定义的模板生成响应。
由于本文讨论的主题是SLU,为了方便起见,我们去掉了ASR和TTS模块,使用了一个简化的版本(实际使用的是百度语音API)。
图2显示了一个购物示例,图3是DST的伪代码和决策逻辑。
当学生不知道如何回应时,可以通过在APP中选择“帮助”来获取提示。
7. EVIDENCE OF POTENTIAL IMPACTS
教育是全世界人民都非常重视的领域。
相关研究表明,中国只有四分之一的学生可以进入本科学习,这远远少于发达国家。幸运的是,在过去的几年里,教育行业取得了很大的进步。2013年以来,中国K12市场规模增速保持在30%以上。然而,由于巨大的租金和教师工资成本,传统公司遇到了利润问题。他们将重点转向在线教育方案
,其中CR4(四家公司集中率)低于5%,目前还没有大型公司存在。此外,中国还制定了政府计划,鼓励新兴市场力量进入这一领域。对于父母来说,他们高度重视英语学习,并愿意为加强孩子的口语和听力技能买单。然而,流行的应用,如VIPKID,主要集中在语音阴影上,不能完全满足他们的需求。事实上,学习外语的核心目标是在日常对话中流利地说和听。
只有几家公司专注于情景对话
,他们只使用简单的逻辑来跟踪对话状态。换句话说,如果没有预定义的用户话语,对话将无法继续。学生们可能会对这样的模式感到厌倦。基于我们的方法设计的会话机器人提供了更大的交谈自由度,并跟踪不同意图和槽值之间的对话状态转换。
我们从北京当地中小学抽取了50名K12学生,进行了一项用户研究。他们中的大多数人认为这种模式很新鲜,并表现出极大的热情继续与机器人交谈。
这款应用目前正在进行内部测试,稍后将发布。
8. 概述
在本文中,我们提出了SLU任务的联合学习模型。执行局部自我注意和嵌入以提取句子特征,将其发送到双向LSTM以捕获单词之间的关系。然后,使用共享特征在面罩门控机制中执行意图分类和缝隙填充任务。此外,我们应用了CRF层来约束时隙的输出并获得合理的结果。我们还基于提出的SLU方法,基于规则的跟踪技能和基于模板的语言生成技能,设计了一种教育性APP,以帮助学生在实践中很好地说和听。
此外,我们建立了几个常见场景对话的数据集。我们将继续扩大数据集并在以后发布。
9. 重点论文
- Zhang, Xiaodong, and Houfeng Wang. "A Joint Model of Intent Determination and Slot Filling for Spoken Language Understanding." IJCAI. 2016.
- Liu, Bing, and Ian Lane. "Attention-based recurrent neural network models for joint intent detection and slot filling." arXiv preprint arXiv:1609.01454 (2016).
- Goo, Chih-Wen, et al. "Slot-gated modeling for joint slot filling and intent prediction." Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers). Vol. 2. 2018.
- Li, Changliang, Liang Li, and Ji Qi. "A Self-Attentive Model with Gate Mechanism for Spoken Language Understanding." Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. 2018.
- Xu, Puyang, and Ruhi Sarikaya. "Convolutional neural network based triangular crf for joint intent detection and slot filling." 2013 IEEE Workshop on Automatic Speech Recognition and Understanding. IEEE, 2013.
10. 代码编写
# 后续追加代码分析
参考文献
- Chen, M., Zeng, J., & Lou, J. (2019). A Self-Attention Joint Model for Spoken Language Understanding in Situational Dialog Applications. CoRR.