Attention is all you need

提出一种transformer结构,去除rnn和cnn网络,去掉了recurrent的概念

background

rnn缺点:时序计算导致无法并行训练,且无法有效解决

现状

some用cnn取代rnn来优化计算。在计算两个distant input时候计算量较大,而transformer是线性的
(如何实现?
transformer完全依赖self-attention

结构

stacked self-attention and point-wise

encode和decoder

transformer基本结构

如图所示,
encoder的基本结构是一个multi-head attention 子网络加一个全连接子网络。每个子网络都引入了residual直连机制,将输入和子网络输出做了一次normalization。encoder由6个这样的子结构组成(为了方便直连,所有embedding输出d_model都是512维度)

decoder基本结构是两个multi-head attention子网络加一个全连接网络,第二个multi-head用来处理encoder的输出。decoder由6个这样的子结构组成(加入了mask机制, masking 的作用就是防止在训练的时候 使用未来的输出的单词。 比如训练时,第一个单词是不能参考第二个单词的生成结果的。 Masking就会把这个信息变成0, 用来保证预测位置 i 的信息只能基于比 i 小的输出。

注意,对于multi-head attention,在encoder中,query=key=value=encoder的输入,在decoder中的第一个multi-head网络中,query=key=value=decoder的输入。在decoder的第二个multi-head网络中,query=decoder第一个mutli-head网络的输出,key=value=encoder的输出。
对于query=key=value的情况,即是大名鼎鼎的self-attention机制

attention机制

给定query,key的维度是d_k,value的维度是d_v

一个attention 函数可以被看做一个query和key-value pairs 到output的映射。query,key,values,output都是向量。

output是由value的加权和得到的,权重取决于query以及对应的key。

目前有两种常用的attention function: 内积和加性(加性通过全连接实现)

scaled内积attention

Scaled Dot-Product Attention 结构

先内积,再用\sqrt{d_k} scale, 最后通过一个softmax function得到weight
Attention(Q,K,V) = softmax(\frac{QK^T}{\sqrt{d_{k}}})V
\sqrt{d_k}较小时,内积attention和加性attention表现差不多。
如果d_k 较大,加性attention表现的更好
论文猜测如果d_k较大,会导致输入到softmax的值较大,使落入饱和区,进而导致梯度消失问题(梯度消失问题很重要)
因子\sqrt{d_k}起到调节作用,使得内积不至于太大(太大的话softmax后就非0即1了,不够“soft”了

multi-head attention

multi-head attention的思想很像卷积网络的卷积核

multi_head_attention 结构

对query,key,value做h次投影,每次投影后的维度都是d_kd_kd_v

然后都经过scaled dot-attention,最后将这h次结果拼接在一起,最后线性输出。


multi-hea的attention计算公式

这里的多头参数并不共享
因为论文设定h=8,所以d_kd_v=d_{model}/h

Position-wise Feed-Forward Network

Embeddings and Softmax

在预训练input tokens和output tokens的embedding时,embedding层共用相同的权重和softmax权重。

在embedding层,transformer对权重乘以了一个\sqrt{d_{model}}

Positional Encoding

transformer在网络结构中没有recurrent和convlution的概念,为了学习到相对位置之间的关系,提出了position embedding

position embeding是在网络最底层和word embedding一起加入的,维度和embedding维度一样都是d_{model},是直接加在一起的

position_embedding公式

这里的意思是将id为p的位置映射为一个dpos维的位置向量,这个向量的第i个元素的数值就是PE(p,i)。这里的i对照着公式看可知i<=d_{model}/2

transformer使用这种正弦函数的原因是,若固定k,位置置p+k的向量可以表示成位置p的向量的线性变换

self-attention的好处

主要体现在计算复杂度的降低和长句子之间的词关联程度。
attention的思路很粗暴,它一步到位获取了全局信息

训练

预处理

WMT 2014 English-German datase数据集
相似长度的句子放在同一batch

训练方法

Adam。β1 = 0.9, β2 = 0.98 and ε = 10−9.

learning_rate公式

learning_rate前warmup_step 步线性增长,后面以正比于的速度减少

正则项

在每一层子网络输入到normalizaiton和下一层网络前做了dropout。
在word embeeding和position embedding相加的时候,做了dropout
dropout率都是0.1

做了label smoothing。\varepsilon =0.1
q^{'}(k|x) = (1-\epsilon)* \delta_{k,y} + \epsilon*u(k)
u(k)可以是均匀分布
即是在label中加入噪声

实验结果

在机器翻译时,对最近20个保存结果取了平均。采用了beam_search,
beam_size=4, length_penalty=0..6

设置了最长生成长度为input长度+50,但是往往终结得很早。

文章为了比较不同模块对结果的影响,在base的基础上设置了不同的参数进行比较

PPL定义。N是句子长度。PPL越小越好


Perplexity-PPL公式

bleu是针对机器翻译的一种评判标准,bleu值在0和1之间,值越大越好
发现d_k变小,模型性能变差

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,445评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,889评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,047评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,760评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,745评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,638评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,011评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,669评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,923评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,655评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,740评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,406评论 4 320
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,995评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,961评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,023评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,483评论 2 342

推荐阅读更多精彩内容