今天是 2021 年第一天,在此祝大家新年快乐! 相关视频都发布在西瓜视频上,西瓜视频账号为 zidea。
自注意力机制(Self Attention)
这里老师不错,就是学习氛围不太好
户型不错就是价格有段
- 观察数据集 大量等于 x 的样本对应 的平均值就是作为估计值
有关自注意力层应用,在原始论文中是将 self-attention 和 LSTM 结合使用,这里介绍将 self-attention 和 SimpleRNN 结合使用,其实道理都是一样的,我们主要是学习如何将 self-attention 融入到循环神经网络中。
在之前介绍 SimpleRNN 中,我们知道更新 是通过上一个时刻和当前时刻输入 一起来更新当前的隐含状态
引入自注意力机制后,我们更新隐含状态 就是用当前上时刻得到 来代替 来和输入 一起更新隐含状态 的
然后以此类推来更新下一个时刻隐含状态,用隐含状态 后,利用 和 计算得到得到当前时刻的隐含状态 。
然后通过计算 可以得到隐含状态
这样我们可以使用这些权重 和 想
- 每一轮都会用 context 看一轮之前输入隐含状态。
- 自注意力机制还会关注每一个输入,