1. 简称
论文《Attention Is All You Need》简称Transformer,作者Ashish Vaswani(Google Brain),经典的自注意力论文。
2. 摘要
主要的序列转换模型基于复杂的递归或卷积神经网络,包括编码器和解码器。性能最好的模型还通过注意力机制
连接编码器和解码器。
我们提出了一种新的简单的网络结构,Transformer,完全基于注意力机制,完全消除了重复和卷积。
在两个机器翻译任务上的实验表明,这些模型在质量上更优越,同时具有更强的并行性,并且所需的训练时间显着减少。
我们的模型在WMT2014英语到德语的翻译任务中取得了28.4 BLEU的成绩,比现有的最佳结果(包括集合)提高了2 BLEU以上。
在WMT2014英语到法语翻译任务中,我们的模型在八个GPU上培训3.5天后,建立了新的单模型最先进的BLEU评分为41.8分,这只是文献中最佳模型的培训成本的一小部分。
我们表明,Transformer可以很好地推广到其他任务,将其成功地应用到英语选区分析中,并且具有较大的训练数据和有限的训练数据。
3. 核心
大多数竞争性神经序列转导模型具有编码器-解码器结构。在此,编码器将符号表示形式的输入序列映射到连续表示形式的序列。给定,解码器然后一次生成一个元素的符号的输出序列。模型的每一步都是自回归的,在生成下一个时,会将先前生成的符号用作附加输入。
Transformer遵循这种总体架构,对编码器和解码器使用堆叠式自注意力和逐点,全连接层,分别如下图的左半部分和右半部分所示。
3.1 Encoder and Decoder Stacks
Encoder:
编码器由N=6个相同层的堆栈组成。
每一层都有两个子层。第一种是多头自我关注机制,第二种是简单的位置式全连接前馈网络。我们在两个子层的每一个周围使用残差连接,然后层归一化。也就是说,每个子层的输出是,其中是由子层本身实现的功能。为了促进这些残留连接,模型中的所有子层以及嵌入层均产生尺寸为的输出。
Decoder:
解码器也由个相同层的堆栈组成。除了每个编码器层中的两个子层之外,解码器插入第三个子层,其在编码器堆栈的输出上执行多头注意。类似于编码器,我们在每个子层周围使用残差连接,然后进行层归一化。我们还修改解码器堆栈中的自我注意子层,以防止位置关注后续位置。这种掩蔽与输出嵌入偏移一个位置的事实相结合,确保位置的预测只能依赖于小于的位置处的已知输出。
3.2 Attention
注意功能可以描述为将查询和一组键值对映射到输出,其中查询,键,值和输出都是向量。将输出计算为值的加权总和,其中分配给每个值的权重是通过查询与相应键的兼容性函数来计算的。
3.2.1 Scaled Dot-Product Attention
我们称我们特别注意“点乘积注意”(图2)。输入由维度为的查询和键以及维度为的值组成。我们计算查询与所有键点积,之后除以,然后应用softmax函数以获取价值。
实际上,我们在一组查询上同时计算注意力函数,将它们打包成矩阵。键和值也打包成矩阵和。我们将输出矩阵计算为:
两种最常用的注意力功能是加性注意力和点积(多重)注意。点积注意事项与我们的算法相同,除了比例因子。加性注意功能使用带有单隐层的前馈网络计算兼容性函数。尽管两者在理论上的复杂度相似,但是在实践中点积的关注要快得多,而且空间效率更高,因为可以使用高度优化的矩阵乘法代码来实现。
对于较小的而言,这两种机制的性能相似,但加性注意的效果优于点积的注意,而对于较大的则不进行缩放。我们怀疑对于较大的值,点积会增大幅度,从而将函数推入梯度极小的区域。为抵消这种影响,我们将点积按缩放。
3.2.2 Multi-Head Attention
与使用维的键,值和查询执行单个注意功能相比,我们发现将查询,键和值分别以,和维的不同,学习的线性投影次有益。然后,在查询,键和值的每个这些预计的版本上,我们并行执行关注功能,从而产生维输出值。将它们连接起来并再次投影,得到最终值,如图2所示。
多头注意力允许模型在不同位置共同关注来自不同表示子空间的信息。对于一个注意力集中的头部,平均会抑制这种情况。
其中投影是参数矩阵,,和。
在这项工作中,我们采用个平行注意层或头部。对于这些中的每一个,我们使用。由于每个头部的尺寸减小,因此总计算成本与具有全尺寸的单头注意力的计算成本相似。
3.2.3 Applications of Attention in our Model
Transformer以三种不同方式使用多头注意力:
- 在“编码器-解码器注意”层中,查询来自先前的解码器层,而存储键和值来自编码器的输出。这允许解码器中的每个位置都参与输入序列中的所有位置。
- 编码器包含自我注意层。在自我关注层中,所有键,值和查询都来自同一位置,在这种情况下,是编码器中上一层的输出。编码器中的每个位置都可以覆盖编码器上一层中的所有位置。
- 类似地,解码器中的自我注意层允许解码器中的每个位置关注直到并包括该位置的解码器中的所有位置。我们需要防止解码器中向左流动信息,以保留自回归属性。通过屏蔽(设置为1)输入中与非法连接相对应的所有值,我们在扩展点乘积注意的内部实现了这一点。参见图2。
3.3 Position-wise Feed-Forward Networks
除了关注子层之外,我们的编码器和解码器中的每个层还包含一个完全连接的前馈网络,该网络分别单独应用于相同位置。这由两个线性变换组成,两个线性变换之间具有ReLU激活。
虽然线性变换在不同位置上相同,但是它们使用不同的参数。描述它的另一种方式是将两个卷积核尺寸为1。输入和输出的维数为,而内层的维数为。
3.4 Embeddings and Softmax
与其他序列转导模型类似,我们使用学习的嵌入将输入标记和输出标记转换为维的向量。我们还使用通常学习的线性变换和函数将解码器输出转换为预测的下一个令牌概率。在我们的模型中,我们在两个嵌入层和pre-softmax线性变换之间共享相同的权重矩阵。在嵌入层中,我们将这些权重乘以。
3.5 Positional Encoding
由于我们的模型不包含递归和卷积,为了让模型利用序列的顺序,我们必须注入一些关于序列中令牌的相对或绝对位置的信息。为此,我们将“位置编码”添加到编码器和解码器堆栈底部的输入嵌入中。位置编码具有与嵌入相同的维度,因此可以将两者相加。
有许多位置编码的选择,学习和固定。
在这项工作中,我们使用不同频率的正弦和余弦函数:
是位置,是维度。即,位置编码的每个维度对应于正弦曲线。波长形成从到的几何级数。我们选择此函数是因为我们假设它会允许模型轻松学习相对位置的参加,因为对于任何固定的偏移量,都可以表示为的线性函数。
4. 实验
5. 重点论文
- Łukasz Kaiser and Samy Bengio. Can active memory replace attention? In Advances in Neural Information Processing Systems, (NIPS), 2016.
- Łukasz Kaiser and Ilya Sutskever. Neural GPUs learn algorithms. In International Conference on Learning Representations (ICLR), 2016.
- Nal Kalchbrenner, Lasse Espeholt, Karen Simonyan, Aaron van den Oord, Alex Graves, and Koray Kavukcuoglu. Neural machine translation in linear time. arXiv preprint arXiv:1610.10099v2, 2017.
- Yoon Kim, Carl Denton, Luong Hoang, and Alexander M. Rush. Structured attention networks. In International Conference on Learning Representations, 2017.
- Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neural machine translation by jointly learning to align and translate. CoRR, abs/1409.0473, 2014.
6. 讨论
- 如何实现并行计算同时缩短依赖距离?:采用自注意力机制。
- 如何像CNN一样考虑多通道?:采用多头注意力。
- 自注意力机制损失了位置信息,如何步长?:位置嵌入。
- 后面的层位置信息消散:残差连接。
7. 代码编写
# 后续追加代码分析
参考文献
- Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., et al. (2017). Attention is All you Need. Nips.