人类的注意力是有限的,以视觉为例,在同一时刻出现在眼前的物体被认为是互相竞争注意力的,这个可以参照论文 "Visual Attention is Beyond One Single Saliency Map" 中的图示,它表明了随着时间变化,注意力的迁移过程,如下所示
那么是否可以让机器理解和学习这种注意力机制以提高工作效率呢?答案是可以的
注意力模型其实之前就有,但在2017年由谷歌提出 Self-Attention 后,随着2018年刷新11项 NLP 记录的 BERT 诞生开始大红大紫,Attention也被认为是效果超过 LSTM 的最佳特征提取器
其论文是:《Attention is All You Need》
参考资料:
https://zhuanlan.zhihu.com/p/37601161(张俊林博士的经典知乎答案,浅显直白的语言描述了attention原理和发展过程,适合入门)
https://jalammar.github.io/illustrated-transformer/(jay alammar用可视化的方式解析 attentionModel,绝对的经典,搜狐的技术公众号有其文章的中文翻译版本)
http://nlp.seas.harvard.edu/2018/04/03/attention.html(哈佛大学原理+代码解析 attentionModel)
https://kexue.fm/archives/4765(挺不错的原理解析 + 代码)
https://zhuanlan.zhihu.com/p/32544778(还可以的一个原理解析)
Paper 辅助:
http://tongtianta.site/paper/203(英中双文Paper)