Recurrent Neural Networks
- networks with loops in them, allowing information to persist.
- unroll
The Problem of Long-Term Dependencies
- use past to predict now
- The problem was explored in depth by Hochreiter (1991) [German] and Bengio, et al. (1994), who found some pretty fundamental reasons why it might be difficult.
-
这是普通的RNN结构
这是LSTM结构
The Core Idea Behind LSTMs
- 重要的点 cell state(传输带),能够在上面增加或者去除cell
- 门有让信息通过的能力。由sigmoid和乘法运算组成。
它决定有多少信息通过。0意味着不让任何信息通过,1意味着让所有信息通过。
Step-by-Step LSTM Walk Through
- “forget gate layer.”
- decide what new information we’re going to store
- 我们决定那些要忘记,那些信息重要的要留下
- 最后我们决定要输出什么(时态or词性)
LSTM变形
1.我们希望在忘记之前能够查看cell state的情况(peepholes)
2.当我们忘记旧的东西,我们才加入新的值
3.把forget gate 和 input gate 变成update gate。把cell state 和hidden state 结合在一起。