论文-Attention Is All You Need(Transformer)

1. 简称

论文《Attention Is All You Need》简称Transformer，作者Ashish Vaswani(Google Brain)，经典的自注意力论文。

2. 摘要

主要的序列转换模型基于复杂的递归或卷积神经网络，包括编码器和解码器。性能最好的模型还通过注意力机制连接编码器和解码器。

我们提出了一种新的简单的网络结构，Transformer，完全基于注意力机制，完全消除了重复和卷积。

在两个机器翻译任务上的实验表明，这些模型在质量上更优越，同时具有更强的并行性，并且所需的训练时间显着减少。
我们的模型在WMT2014英语到德语的翻译任务中取得了28.4 BLEU的成绩，比现有的最佳结果(包括集合)提高了2 BLEU以上。

在WMT2014英语到法语翻译任务中，我们的模型在八个GPU上培训3.5天后，建立了新的单模型最先进的BLEU评分为41.8分，这只是文献中最佳模型的培训成本的一小部分。

我们表明，Transformer可以很好地推广到其他任务，将其成功地应用到英语选区分析中，并且具有较大的训练数据和有限的训练数据。

3. 核心

大多数竞争性神经序列转导模型具有编码器-解码器结构。在此，编码器将符号表示形式 $（x_1，...，x_n）$ 的输入序列映射到连续表示形式 $z =（z_1，...，z_n）$ 的序列。给定 $z$ ，解码器然后一次生成一个元素的符号的输出序列 $（y_1，...，y_m）$ 。模型的每一步都是自回归的，在生成下一个时，会将先前生成的符号用作附加输入。

Transformer遵循这种总体架构，对编码器和解码器使用堆叠式自注意力和逐点，全连接层，分别如下图的左半部分和右半部分所示。

Transformer

3.1 Encoder and Decoder Stacks

Encoder：编码器由N=6个相同层的堆栈组成。
每一层都有两个子层。第一种是多头自我关注机制，第二种是简单的位置式全连接前馈网络。我们在两个子层的每一个周围使用残差连接，然后层归一化。也就是说，每个子层的输出是 $LayerNorm(x+Sublayer(X))$ ，其中 $Sublayer(X)$ 是由子层本身实现的功能。为了促进这些残留连接，模型中的所有子层以及嵌入层均产生尺寸为 $d_{model} = 512$ 的输出。

Decoder：解码器也由 $N=6$ 个相同层的堆栈组成。除了每个编码器层中的两个子层之外，解码器插入第三个子层，其在编码器堆栈的输出上执行多头注意。类似于编码器，我们在每个子层周围使用残差连接，然后进行层归一化。我们还修改解码器堆栈中的自我注意子层，以防止位置关注后续位置。这种掩蔽与输出嵌入偏移一个位置的事实相结合，确保位置 $i$ 的预测只能依赖于小于 $i$ 的位置处的已知输出。

3.2 Attention

注意功能可以描述为将查询和一组键值对映射到输出，其中查询，键，值和输出都是向量。将输出计算为值的加权总和，其中分配给每个值的权重是通过查询与相应键的兼容性函数来计算的。

(left) Scaled Dot-Product Attention. (right) Multi-Head Attention consists of several attention layers running in parallel

3.2.1 Scaled Dot-Product Attention

我们称我们特别注意“点乘积注意”（图2）。输入由维度为 $d_k$ 的查询和键以及维度为 $d_v$ 的值组成。我们计算查询与所有键点积，之后除以 $\sqrt{d_k}$ ，然后应用softmax函数以获取价值。

实际上，我们在一组查询上同时计算注意力函数，将它们打包成矩阵 $Q$ 。键和值也打包成矩阵 $K$ 和 $V$ 。我们将输出矩阵计算为：
$Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}})\tag{3.2.1}$

两种最常用的注意力功能是加性注意力和点积（多重）注意。点积注意事项与我们的算法相同，除了比例因子 $\frac{1}{\sqrt{d_k}}$ 。加性注意功能使用带有单隐层的前馈网络计算兼容性函数。尽管两者在理论上的复杂度相似，但是在实践中点积的关注要快得多，而且空间效率更高，因为可以使用高度优化的矩阵乘法代码来实现。

对于较小的 $d_k$ 而言，这两种机制的性能相似，但加性注意的效果优于点积的注意，而对于较大的 $d_k$ 则不进行缩放。我们怀疑对于较大的 $d_k$ 值，点积会增大幅度，从而将 $softmax$ 函数推入梯度极小的区域。为抵消这种影响，我们将点积按 $\frac{1}{\sqrt{d_k}}$ 缩放。

3.2.2 Multi-Head Attention

与使用 $d_{model}$ 维的键，值和查询执行单个注意功能相比，我们发现将查询，键和值分别以 $d_k$ ， $d_k$ 和 $d_v$ 维的不同，学习的线性投影 $h$ 次有益。然后，在查询，键和值的每个这些预计的版本上，我们并行执行关注功能，从而产生 $d_v$ 维输出值。将它们连接起来并再次投影，得到最终值，如图2所示。

多头注意力允许模型在不同位置共同关注来自不同表示子空间的信息。对于一个注意力集中的头部，平均会抑制这种情况。

$MultiHead(Q,K,V)=Concat(head_1,...,head_h)W^O \\ head_i=Attention(QW_i^Q,KW_i^K,VW_i^V) \tag{3.2.2}$

其中投影是参数矩阵 $W_i^Q \in R^{d_{model}\times d_k}$ ， $W_i^K \in R^{d_{model}\times d_k}$ ， $W_i^V \in R^{d_{model}\times d_v}$ 和 $W^O \in R^{hd_v\times d_{model}}$ 。

在这项工作中，我们采用 $h = 8$ 个平行注意层或头部。对于这些中的每一个，我们使用 $d_k = d_v = d_{model} / h =64$ 。由于每个头部的尺寸减小，因此总计算成本与具有全尺寸的单头注意力的计算成本相似。

3.2.3 Applications of Attention in our Model

Transformer以三种不同方式使用多头注意力：

在“编码器-解码器注意”层中，查询来自先前的解码器层，而存储键和值来自编码器的输出。这允许解码器中的每个位置都参与输入序列中的所有位置。
编码器包含自我注意层。在自我关注层中，所有键，值和查询都来自同一位置，在这种情况下，是编码器中上一层的输出。编码器中的每个位置都可以覆盖编码器上一层中的所有位置。
类似地，解码器中的自我注意层允许解码器中的每个位置关注直到并包括该位置的解码器中的所有位置。我们需要防止解码器中向左流动信息，以保留自回归属性。通过屏蔽（设置为1） $softmax$ 输入中与非法连接相对应的所有值，我们在扩展点乘积注意的内部实现了这一点。参见图2。

3.3 Position-wise Feed-Forward Networks

除了关注子层之外，我们的编码器和解码器中的每个层还包含一个完全连接的前馈网络，该网络分别单独应用于相同位置。这由两个线性变换组成，两个线性变换之间具有ReLU激活。

$FFN(x)=max(0,xW_1+b_1)W_2+b_2\tag{3.3}$

虽然线性变换在不同位置上相同，但是它们使用不同的参数。描述它的另一种方式是将两个卷积核尺寸为1。输入和输出的维数为 $d_{model} = 512$ ，而内层的维数为 $d_{ff} = 2048$ 。

3.4 Embeddings and Softmax

与其他序列转导模型类似，我们使用学习的嵌入将输入标记和输出标记转换为维 $d_{model}$ 的向量。我们还使用通常学习的线性变换和 $softmax$ 函数将解码器输出转换为预测的下一个令牌概率。在我们的模型中，我们在两个嵌入层和pre-softmax线性变换之间共享相同的权重矩阵。在嵌入层中，我们将这些权重乘以 $\sqrt{d_{model}}$ 。

3.5 Positional Encoding

由于我们的模型不包含递归和卷积，为了让模型利用序列的顺序，我们必须注入一些关于序列中令牌的相对或绝对位置的信息。为此，我们将“位置编码”添加到编码器和解码器堆栈底部的输入嵌入中。位置编码具有与嵌入相同的维度 $d_{model}$ ，因此可以将两者相加。
有许多位置编码的选择，学习和固定。

Complexity

在这项工作中，我们使用不同频率的正弦和余弦函数：
$PE_{(pos,2i)}=sin(pos/10000^{2i/d_{model}}) \\ PE_{(pos,2i+1)}=cos(pos/10000^{2i/d_{model}}) \tag{3.5}$

$pos$ 是位置， $i$ 是维度。即，位置编码的每个维度对应于正弦曲线。波长形成从 $2\pi$ 到 $10000·2\pi$ 的几何级数。我们选择此函数是因为我们假设它会允许模型轻松学习相对位置的参加，因为对于任何固定的偏移量 $k$ ， $P E_{pos + k}$ 都可以表示为 $PE_{pos}$ 的线性函数。

4. 实验

Machine Translation

Model Variations

English Constituency Parsing

5. 重点论文

Łukasz Kaiser and Samy Bengio. Can active memory replace attention? In Advances in Neural Information Processing Systems, (NIPS), 2016.
Łukasz Kaiser and Ilya Sutskever. Neural GPUs learn algorithms. In International Conference on Learning Representations (ICLR), 2016.
Nal Kalchbrenner, Lasse Espeholt, Karen Simonyan, Aaron van den Oord, Alex Graves, and Koray Kavukcuoglu. Neural machine translation in linear time. arXiv preprint arXiv:1610.10099v2, 2017.
Yoon Kim, Carl Denton, Luong Hoang, and Alexander M. Rush. Structured attention networks. In International Conference on Learning Representations, 2017.
Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neural machine translation by jointly learning to align and translate. CoRR, abs/1409.0473, 2014.

6. 讨论

如何实现并行计算同时缩短依赖距离？：采用自注意力机制。
如何像CNN一样考虑多通道？：采用多头注意力。
自注意力机制损失了位置信息，如何步长？：位置嵌入。
后面的层位置信息消散：残差连接。

7. 代码编写

# 后续追加代码分析

参考文献

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., et al. (2017). Attention is All you Need. Nips.

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,602评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,442评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,878评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,306评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,330评论 5赞 373
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,071评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,382评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,006评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,512评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,965评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,094评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,732评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,283评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,286评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,512评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,536评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,828评论 2赞 345