【深度学习】从seq2seq到Transformer学习记录

背景

Encoder-Decoder是个非常通用的计算框架，至于Encoder和Decoder具体使用什么模型都是由研究者自己定的，常见的比如 CNN / RNN / BiRNN / GRU / LSTM / Deep LSTM 等，这里的变化组合非常多。

seq2seq（14年）

seq2seq 是一个 Encoder–Decoder 结构的网络，它的输入是一个序列，输出也是一个序列。
Encoder 中将一个可变长度的信号序列变为固定长度的向量表达，Decoder 将这个固定长度的向量变成可变长度的目标的信号序列。
这个结构最重要的地方在于输入序列和输出序列的长度是可变的，可以用于翻译，聊天机器人，句法分析，文本摘要等。

Encoder 对输入语句 X 进行编码，经过函数变换为中间语义向量 C，得到中间语义向量 C 后，使用 Decoder 进行解码。Decoder根据中间状态向量 C 和已经生成的历史信息 yi-1 去生成 t 时刻的单词 yi

两种模型

如果将 c 直接输入到Decoder中，则是 Seq2Seq 模型的第二种模型：

c直接作为Decoder阶段RNN的初始化state，而不是在每次decode时都作为RNN cell的输入。

$h'_0=c$
$h'_t=f(h'_{t-1},y_{t-1})$
$y_t=g(h'_t,y_{t-1})$

如果将 c 当作 Decoder 的每一时刻输入，则是 Seq2Seq 模型的第一种模型：

$h'_t=f(c, h'_{t-1}, y_{t-1})$
$y_t=g(h'_t,y_{t-1},c)$

tip:g函数往往是一个softmax函数

Seq-to-Seq with Attention（14年）

Encoder-Decoder 模型的局限性：

中间语义向量无法完全表达整个输入序列的信息。Encoder 和 Decoder 的唯一联系只有语义编码Ｃ，即将整个输入序列的信息编码成一个固定大小的状态向量再解码，相当于将信息”有损压缩”。
句子X中任意单词对生成某个目标单词yi来说影响力都是相同的，没有任何区别
RNN难以处理长序列的句子。随着输入信息长度的增加，由于向量长度固定，先前编码好的信息会被后来的信息覆盖，丢失很多信息。
每个时间步的输出需要依赖于前面时间步的输出，这使得模型没有办法并行，效率低；
并且面临对齐问题。

引入Attention机制优点：

打破了只能利用encoder最终单一向量结果的限制，从而使模型可以集中在所有对于下一个目标单词重要的输入信息上，使模型效果得到极大的改善。
可解释性。我们通过观察attention 权重矩阵的变化，可以更好地知道哪部分翻译对应哪部分源文字。

Ａttention 模型的特点是 Decoder 不再将整个输入序列编码为固定长度的中间语义向量Ｃ，而是根据当前生成的新单词计算新的 $C_{i}$ ，使得每个时刻输入不同的Ｃ，这样就解决了单词信息丢失的问题。引入了 Ａttention 的 Encoder-Decoder 模型如下图：

原来：

现在：
$h'_t=f(c_t, h'_{t-1}, y_{t-1})$
$y_t=g(h'_t,y_{t-1},c_t)$

attention 权重矩阵的计算

这里关键的操作是计算encoder与decoder state之间的关联性的权重，得到Attention分布，从而对于当前输出位置得到比较重要的输入位置的权重，在预测输出时相应的会占较大的比重。

Attention（17年）

背景：attention mechanism通常和RNN结合使用，每个时间步的输出需要依赖于前面时间步的输出，这使得模型没有办法并行，效率低；

应用：机器翻译，图片描述，语音转文字

注意力模型优势：

提高任务性能
提高模型的可解释性
并行计算减少模型训练时间。Attention机制每一步计算不依赖于上一步的计算结果，因此可以和CNN一样并行处理。但是CNN也只是每次捕捉局部信息，通过层叠来获取全局的联系增强视野。
可以灵活的捕捉长期和local依赖，而且是一步到位的。AM解决了RNN模型的很多问题，例如在面对长文本时的性能衰减，以及计算序列数据对任务的权重影响等。

可以从两个角度来分类Attention：

Spatial Attention 空间注意力和Temporal Attention 时间注意力。
Soft Attention和Hard Attention。Soft Attention是所有的数据都会注意，都会计算出相应的注意力权值，不会设置筛选条件。Hard Attention会在生成注意力权重后筛选掉一部分不符合条件的注意力，让它的注意力权值为0，即可以理解为不再注意这些不符合条件的部分。

通用理解

Attention is all you need
本文的创新点在于抛弃了之前传统的encoder-decoder模型必须结合cnn或者rnn的固有模式，只用attention。文章的主要目的是在减少计算量和提高并行效率的同时不损害最终的实验结果，创新之处在于提出了两个新的Attention机制，分别叫做 Scaled Dot-Product Attention 和 Multi-Head Attention。提出了transformer。

将Source中的构成元素想象成是由一系列的<Key,Value>数据对构成，此时给定Target中的某个元素Query，通过计算Query和各个Key的相似性或者相关性，得到每个Key对应Value的权重系数，然后对Value进行加权求和，即得到了最终的Attention数值。本质上Attention机制是对Source中元素的Value值进行加权求和，而Query和Key用来计算对应Value的权重系数。其实就是一个查询(query)到一系列键值(key-value)对的映射。

从概念上理解，把Attention仍然理解为从大量信息中有选择地筛选出少量重要信息并聚焦到这些重要信息上，忽略大多不重要的信息，这种思路仍然成立。聚焦的过程体现在权重系数的计算上，权重越大越聚焦于其对应的Value值上，即权重代表了信息的重要性，而Value是其对应的信息。

scaled dot-product attention

$attention(Q,K,V) = softmax(\frac{QK^T}{\sqrt{d_k}})V$

attention函数共有三步完成得到attention value。

Q与K进行相似度计算得到权值
计算Query和每个Key之间的相似性或相关性一般有三种方式：

dot: $Q^TK_i$
General: $Q^TW_aK_i$
Concat: $W_a[Q,K_i]$
Preceptron: $V^T_atanh(W_aQ+U_aK_i)$

对上部权值归一化

$a_i = softmax(f(Q,K_i)) = \frac{exp(f(Q,K_I))}{\sum_j(f(Q,K_i))}$
用归一化的权值与V加权求和

$Attention(query,source) = \sum_ia_iV_i$

其意义为：为了用 value求出 query的结果, 根据 query和 key 来决定注意力应该放在value的哪部分。以前的 attention是用 LSTM 做 encoder，也就是用它来生成key 和 value，然后由 decoder来生成 query。(论文 Neural machine translation by jointly learning to align and translate，key 和 value是一样的，都是文中的h ，而 query是文中的 s。)

有两种常用的注意力函数，一种是加法注意力(additive attention)，另外一种是点乘注意力(dot-productattention)，论文所采用的就是点乘注意力，这种注意力机制对于加法注意力而言，更快，同时更节省空间。

为什么scaling：

如果太大，点乘的值太大，如果不做scaling，结果就没有加法注意力好。(d_k是key和query的维度)
点乘的结果过大，这使得经过softmax之后的梯度很小，不利于反向传播的进行，所以我们通过对点乘的结果进行尺度化。

Multi-head Attention

这里面Multi-head Attention其实就是多个Self-Attention结构的结合，每个head学习到在不同表示空间中的特征，如下图所示，两个head学习到的Attention侧重点可能略有不同，这样给了模型更大的容量。

self attention

Google最新的机器翻译模型内部大量采用了Self Attention模型。

在一般任务的Encoder-Decoder框架中，输入Source和输出Target内容是不一样的，比如对于英-中机器翻译来说，Source是英文句子，Target是对应的翻译出的中文句子，Attention机制发生在Target的元素和Source中的所有元素之间。而Self Attention顾名思义，可以理解为Target=Source这种特殊情况下的注意力计算机制，指的不是Target和Source之间的Attention机制。

优点：

引入Self Attention后会更容易捕获句子中长距离的相互依赖的特征，因为如果是RNN或者LSTM，需要依次序序列计算，对于远距离的相互依赖的特征，要经过若干时间步步骤的信息累积才能将两者联系起来，而距离越远，有效捕获的可能性越小。
Self Attention对于增加计算的并行性也有直接帮助作用。

Transformer

Encoder: encoder由6个相同的层堆叠而成，每个层有两个子层。第一个子层是多头自我注意力机制(multi-head self-attention mechanism)，第二层是简单的位置的全连接前馈网络(position-wise fully connected feed-forward network)。在两个子层中会使用一个残差连接，接着进行层标准化(layer normalization)。也就是说每一个子层的输出都是LayerNorm(x + sublayer(x))。网络输入是三个相同的向量q, k和v，是word embedding和position embedding相加得到的结果。为了方便进行残差连接，我们需要子层的输出和输入都是相同的维度。
Decoder: decoder也是由N（N=6）个完全相同的Layer组成，decoder中的Layer由encoder的Layer中插入一个Multi-Head Attention + Add&Norm组成。输出的embedding与输出的position embedding求和做为decoder的输入，经过一个Multi-HeadAttention + Add&Norm（（MA-1）层，MA-1层的输出做为下一Multi-Head Attention + Add&Norm（MA-2）的query（Q）输入。MA-2层的输出输入到一个前馈层（FF），经过AN操作后，经过一个线性+softmax变换得到最后目标输出的概率。对于decoder中的第一个多头注意力子层，需要添加masking，确保预测位置i的时候仅仅依赖于位置小于i的输出。层与层之间使用的Position-wise feed forward network。

key, query, value

对于encoder来说，其中key, query, value均来自前一层encoder的输出，即encoder的每个位置都可以注意到之前一层encoder的所有位置。
对于decoder来讲，有两个与encoder不同的地方：
- 一个是第一级的Masked Multi-head。key, query, value均来自前一层decoder的输出，但加入了Mask操作，即我们只能attend到前面已经翻译过的输出的词语，因为翻译过程我们当前还并不知道下一个输出词语，这是我们之后才会推测到的。
- 另一个是第二级的Multi-Head Attention不仅接受来自前一级decoder的输出，还要接收encoder的输出。第二级decoder也被称作encoder-decoder attention layer，即它的query来自于之前一级的decoder层的输出，但其key和value来自于encoder的输出，这使得decoder的每一个位置都可以attend到输入序列的每一个位置。
- 总结一下，k和v的来源总是相同的，q在encoder及第一级decoder中与k,v来源相同，在encoder-decoder attention layer中与k,v来源不同。

因此，Transformer会在三个不同的方面使用multi-head attention：

encoder-decoder attention：使用multi-head attention，输入为encoder的输出和decoder的self-attention输出，其中encoder的self-attention作为 key and value，decoder的self-attention作为query
encoder self-attention：使用 multi-head attention，输入的Q、K、V都是一样的（input embedding and positional embedding）
decoder self-attention：在decoder的self-attention层中，deocder 都能够访问当前位置前面的位置

position encoding

注意由于该模型没有recurrence或convolution操作，所以没有明确的关于单词在源句子中位置的相对或绝对的信息，为了更好的让模型学习位置信息，所以添加了position encoding并将其叠加在word embedding上。该论文中选取了三角函数的encoding方式，其他方式也可以。

Add+Norm

其中Add代表了Residual Connection，是为了解决多层神经网络训练困难的问题，通过将前一层的信息无差的传递到下一层，可以有效的仅关注差异部分，这一方法之前在图像处理结构如ResNet等中常常用到。 $F(x)+x$

而Norm则代表了Layer Normalization，通过对层的激活值的归一化，可以加速模型的训练过程，使其更快的收敛，

参考文献：

最后编辑于：2019.06.24 11:05:40

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,214评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,307评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,543评论 0赞 341
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,221评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,224评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,007评论 1赞 284
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,313评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,956评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,441评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,925评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,018评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,685评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,234评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,240评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,464评论 1赞 261
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,467评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,762评论 2赞 345