LSTM的本质使用三个门分别来表示“需要多少输入”,“需要记住前一个时刻隐藏单元多少内容”,“需要输出多少东西”。
整个模型用图像表示如下图:
三个门用公式表示如下
其中三个门的输入就是当前时刻的输入xt和上一个时刻的隐藏状态,套在外面的函数为非线性激活函数,如logistic函数。输出区间为(0,1)。
更新完记忆单元后,再根据输出门来决定当前时刻的隐状态ht
总结一下,三个门都有各自的参数,他们的输入均是本时刻的输入矩阵Xt和上时刻的隐藏单元Ht-1。这里引入新的名粗“记忆单元”,这个也会对后续产生影响,但是有别于隐藏单元。
隐藏门和上时刻的记忆单元Ct-1点乘, A
输入门和本时刻的候选记忆向量点乘 B
A+B组成新的记忆单元Ct
输出门再与Ct点乘生成新的隐藏单元Ht