Transformer详解（二）：Attention机制

Encoder-Decoder中的attention机制

上一篇文章最后，在Encoder-Decoder框架中，输入信息的全部信息被保存在了C。而这个C很容易受到输入句子长度的影响。当句子过长时，C就有可能存不下这些信息，导致模型后续的精度下降。Attention机制对于这个问题的解决方案是在decoder阶段，每个时间点输入的C都是不一样的。而这个C，会根据当前要输出的y，去选取最适合y的上下文信息。
整体的流程如下图所示

从图上可以看出，在Decoder结构中，每一个时间点的输入都是不同的。这就是attention机制起作用的地方。对于Encoder中包含的输入内容的信息，attention机制会根据当前的输出，对Encoder中获得的输入做一个权重分配。这一点和
人类的注意力也很像。当人在翻译句子中某个词的时候，肯定也会有所针对的看原句中的对应部分，而不是把原句所有词都同等看待。
下面举一个具体的翻译的例子，

Encoder模型中的h1,h2,h3,h4可以看做是输入‘我爱中国’所代表的信息。如果不做处理的话，那么c就是一个包含h1到h4的全部信息一个状态。现在对于不同的隐状态h，配以不同的权重a。这样，在输出不同的词的时候，虽然h的值都一样，但h对应的a的值是不同的。这就会导致c是不一样的。在输出每一个y的时候，输入进来的c都是不同的。
这个过程人的注意力非常相像。以图中的翻译为例，输出的一个词 I 与中文的我关系最密切，所以h1分配的权重最大，也就是将翻译的注意力集中在h1。这里的权重a，是通过训练得来的。对于

a_{ij}

而言，是通过decoder的上一个隐状态

h_{i}

和encoder的隐状态

h_{j}

，学习得来的。
具体到RNN模型的docoder模型来讲，在时刻i，如果要生成yi单词，我们可以得到在生成Yi之前的时刻i-1时，隐层节点i-1时刻的输出值

H_{i-1}

的，而我们的目的是要计算生成Yi时输入句子中的每个词对Yi来说的注意力分配概率分布，那么可以用Target输出句子i-1时刻的隐层节点状态

H_{i-1}

去和输入句子Source中每个单词对应的RNN隐层节点状态hj进行对比，即通过函数

F(hj,H_{i-1})

来获得目标单词yi和每个输入单词对应的对齐可能性，这个F函数在不同论文里可能会采取不同的方法，然后函数F的输出经过Softmax进行归一化就得到了符合概率分布取值区间的注意力分配概率分布数值。

总结一下，对于encoder-decoder模型中的attention机制。
在decoder阶段，生成最后的输出时

y_1 = f_1 (c_1)

y_2 = f_1 (c_2,y_1)

y_3 = f_1 (c_3,y_2)

...

y_n = f_1(c_{n},y_{n-1})

其中，每个

c_i

包含了对于最初输入句子中每个词的注意力分配。

c_i = g(a_{i1}*f_2(x_1),a_{i2}*f_2(x_2),a_{i3}*f_2(x_3),...,a_{ij}*f_2(x_j))

这里f2表示encoder模型中的变换函数。在RNN的实例中，f2的结果就是RNN模型中的隐层状态值h。
g函数通常使用求和函数。

c_i = \sum_{j=1}^{L_{x}}a_{ij}h_j

这里的L表示了句子的长度。
以上内容就是在Encoder-Decoder结构下的attention机制。

Attention机制

如果离开上面提到的Encoder-Decoder框架，单纯的讨论attention机制，会发现attention机制的核心就是从大量的信息中有选择的选择重要信息。捕获到对当前任务有用的重要的信息。
我们把输入的内容作为source，生成的目标作为target。
source可以看成由一个一个的<key,value>对组成的，target里面含有不同的query。
Attention机制的作用就是计算每一个query，在source中的值。
$Attention(Query,Source) = \sum _{i=1}^{L_x}Similarity(Query,key_i)*value_i$
整个的计算过程分成两步。
第一步，计算source中的所有的key与query的相似性，并对计算得到的全部相似性做softmax归一化处理。
第二步，根据第一步中得到的权重，对value进行加权求和。
整个计算流程如下图所示

Self-Attention

在前面机器翻译的例子中，输入和输出的长度是不一样的。因为语言不通，所以句子长度通常不一样。在 self-attention中，我们可以认为source = target。 self-attention可以捕捉到句子里面的长依赖关系。
比如，对于句子
The animal didn't cross the street because it was too tired。
这里想要知道这个it代指的到底是什么，self-attention可以捕捉到句子中的长依赖关系。将其结果可视化如下图所示，

传统的RNN，LSTM网络，如果面对长句子的话，这种距离较远的依赖关系相比之下很难捕获到，因为根据RNN/LSTM的结构，需要按顺序进行序列计算，所以距离越远，关系越难捕捉。而self-attention是针对句子中所有词两两计算，不存在距离长短这一说。此外，self-attention相比循环网络还有另外一个优点是便于并行计算。
下面将介绍self-attention的具体计算。
首先，对于每一个词向量，我们创建3个向量，分别是query，key,value。
这三个向量是词向量与训练好的权重矩阵

W^Q,W^K,W^V

分别相乘得到的。

接下来，对于每个q而言，分别计算这个q与所有k的得分。计算公式

score = \frac{q*k}{\sqrt{d_k}}

这里除以分母的作用是为了后面计算中有稳定的梯度。对于

q_1

而言，经过计算后，获得了

socre_{1},socre_{2},socre_{3}...socre_{n}

n为句子的长度。
下一步把这些socore进行softmax归一化。然后将归一化的结果与value向量相乘，获得最后的结果。

计算过程图

当一个词的时候，整个的计算流程就和刚才介绍的一样。那么整个这个self-attention的作用是什么呢？其实是针对输入的句子，构建了一个attention map。假设输入句子是‘I have a dream’，整个句子作为输入，矩阵运算后，会得到一个4*4的attention map。如下图所示。

self-attention结构在Transformer结构中是非常重要的一步，这里先将其的基本过程梳理清楚。
对于Transformer结构的讲解，将在下一篇文章中详细介绍。

参考文献

[1]完全图解RNN、RNN变体、Seq2Seq、Attention机制
[2]深度学习中的注意力模型（2017版）
[3]详解Transformer （Attention Is All You Need）
[4]The Illustrated Transformer
[5]Visualizing A Neural Machine Translation Model

最后编辑于：2019.02.15 15:04:49

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 195,980评论 5赞 462
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 82,422评论 2赞 373
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 143,130评论 0赞 325
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,553评论 1赞 267
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,408评论 5赞 358
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,326评论 1赞 273
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,720评论 3赞 386
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,373评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,678评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,722评论 2赞 312
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,486评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,335评论 3赞 313
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,738评论 3赞 299
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,009评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,283评论 1赞 251
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,692评论 2赞 342
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,893评论 2赞 335

Transformer详解（二）：Attention机制

Encoder-Decoder中的attention机制

Attention机制

Self-Attention

参考文献

推荐阅读更多精彩内容