与传统的前向神经网络和卷积神经网络 (CNN) 不同,循环神经网络 (Recurrent Neural Networks,RNN)是一种擅于处理序列数据的模型,例如文本、时间序列、股票市场等。本文主要介绍循环神经网络中的几种重要模型 RNN、LSTM、GRU 的发展过程与结构区别,并详细推导了 RNN 中的梯度爆炸与梯度消失的原因。
1. 循环神经网络背景
前向神经网络和 CNN 在很多任务中都取得不错的效果,但是这些网络结构的通常比较适合用于一些不具有时间或者序列依赖性的数据,接受的输入通常与上一时刻的输入没有关系。
但是序列数据不同,输入之间存在着先后顺序,当前输入的结果通常与前后的输入都有关。例如一段句子包含 4 个输入单词 :“我”、“去”、“商场”、“打车”,4 个单词通过不同的顺序排列,会有不同的意思,“我打车去商场” 和 “我去商场打车”。因此我们通常需要按照一定的顺序阅读句子才能理解句子的意思。
面对这种情况我们就需要用到循环神经网络了,循环神经网络按照顺序处理所有的输入,每一时刻 t,都会存在一个向量 h 保存与 t 时刻相关的信息 (可以是 t 时刻前的信息或者 t 时刻后的信息)。通过向量 h 与输入向量 x,就可以比较准确地判断当前的结果。在下文中的符号表示:
xt 表示 t 时刻的输入向量(例如第 t 个单词的词向量)。
ht 表示 t 时刻的隐藏向量 (包含了从开始一直到 t 时刻的相关信息)。
yt 表示 t 时刻的输出向量 (通常是预测的结果)。
2. RNN
2.1 RNN 结构
RNN 是比较早期的循环神经网络,结构相对简单,通常的结构如下图所示。
图中 x、h、y 分别代表 RNN 神经元的输入、隐藏状态、输出。
U、W、V 是对向量 x、h、y 进行线性变换的矩阵。
在 RNN 中每一时刻都共用同一个神经元,将神经元展开之后如下图所示。
可以看到 RNN 在 t 时刻的神经元接收的输入包括:当前时刻的输入 xt 以及上一时刻的隐藏状态 ht-1。输出包括:当前时刻的隐藏状态 ht 和当前时刻的输出 yt 。
因此在 RNN 中输入 xt 只包含 t 时刻信息,不包含顺序信息;而 ht 是根据 xt 和 ht-1 计算得到的,包含了历史信息与当前输入信息。ht 与 yt 的计算方法如下,计算 ht 时激活函数通常采用 tanh,计算输出 yt 时激活函数通常是 softmax (分类)。
2.2 RNN 的缺陷 (梯度消失与梯度爆炸)
我们先看一下只有 3 个输入数据的序列,如上图所示。此时我们的隐藏层 h1、h2、h3 和输出 y1、y2、y3 的计算公式:
RNN 在时刻 t 的损失函数为 Lt,总的损失函数为 L = L1 + L2 + L3。
t = 3 时刻的损失函数 L3 对于网络参数 U、W、V 的梯度如下:
可以看到对于参数矩阵 V (对应输出 yt) 的梯度并没有长期依赖,只与 t = 3 时刻的序列相关。但是参数矩阵 U (对应输入 xt) 和参数矩阵 W (对应隐藏状态 ht) 的梯度均有长期依赖,依赖于之前的隐藏层状态 h1、h2。可以推导出时刻 t 的损失函数 Lt 对于 U、W 的梯度如下:
其中的连乘项就是导致 RNN 出现梯度消失与梯度爆炸的罪魁祸首,连乘项可以如下变换:
tanh' 表示 tanh 的导数,可以看到 RNN 求梯度的时候,实际上用到了 (tanh' × W) 的连乘。当 (tanh' × W) > 1 时,多次连乘容易导致梯度爆炸;当 (tanh' × W) < 1 时,多次连乘容易导致梯度消失。
因为 RNN 计算梯度时候的问题,所以 LSTM (长短期记忆网络) 就出现了。LSTM 在很多方面都碾压了 RNN,并且可以很好地缓解梯度消失与梯度爆炸的问题。
3. LSTM
我们可以通过 LSTM 比较好地缓解 RNN 梯度消失的问题,我们先了解一下 LSTM 的结构。
3.1 LSTM 结构
上图来源于 colah 的博客,可以看到 LSTM 和 RNN 的神经元结构有比较大的区别。传统 RNN 神经元会接受上一时刻的隐藏状态 ht-1 和当前输入 xt。
而 LSTM 的神经元在此基础上还输入了一个 cell 状态 ct-1, cell 状态 c 和 RNN 中的隐藏状态 h 相似,都保存了历史的信息,从 ct-2 ~ ct-1 ~ ct。在 LSTM 中 c 与 RNN 中的 h 扮演的角色很像,都是保存历史状态信息,而在 LSTM 中的 h 更多地是保存上一时刻的输出信息。
除此之外,LSTM 内部的计算更加复杂,包含了遗忘门、输入门和输出门,接下来分别介绍每一个门的作用。
遗忘门:上图中红色框中的是 LSTM 遗忘门部分,用来判断 cell 状态 ct-1 中哪些信息应该删除。其中 σ 表示激活函数 sigmoid。输入的 ht-1 和 xt 经过 sigmoid 激活函数之后得到 ft,ft 中每一个值的范围都是 [0, 1]。ft 中的值越接近 1,表示 cell 状态 ct-1 中对应位置的值更应该记住;ft 中的值越接近 0,表示 cell 状态 ct-1 中对应位置的值更应该忘记。将 ft 与 ct-1 按位相乘 (ElementWise 相乘),即可以得到遗忘无用信息之后的 c’t-1。
输入门:上图中红色框中的是 LSTM 输入门部分,用来判断哪些新的信息应该加入到 cell 状态 c‘t-1 中。其中 σ 表示激活函数 sigmoid。输入的 ht-1 和 xt 经过 tanh 激活函数可以得到新的输入信息 (图中带波浪线的 Ct),但是这些新信息并不全是有用的,因此需要使用 ht-1 和 xt 经过 sigmoid 函数得到 it, it 表示哪些新信息是有用的。两向量相乘后的结果加到 c’t-1 中,即得到 t 时刻的 cell 状态 ct。
输出门:上图中红色框中的是 LSTM 输出门部分,用来判断应该输出哪些信息到 ht 中。cell 状态 ct 经过 tanh 函数得到可以输出的信息,然后 ht-1 和 xt 经过 sigmoid 函数得到一个向量 ot,ot 的每一维的范围都是 [0, 1],表示哪些位置的输出应该去掉,哪些应该保留。两向量相乘后的结果就是最终的 ht。
3.2 LSTM 缓解梯度消失、梯度爆炸
在上一节中我们知道,RNN 中出现梯度消失的原因主要是梯度函数中包含一个连乘项,如果能够把连乘项去掉就可以克服梯度消失问题。如何去掉连乘项呢?我们可以通过使连乘项约等于 0 或者约等于 1,从而去除连乘项。
LSTM 中通过门的作用,可以使连乘项约等于 0 或者 1。首先我们看一下 LSTM 中 ct 与 ht 的计算公式。
在公式中 ft 与 ot 都是通过 sigmoid 函数得到的,意味着它们的值要么接近 0,要么接近 1。因此在 LSTM 中的连乘项变成:
因此当门的梯度接近1时,连乘项能够保证梯度很好地在 LSTM 中传递,避免梯度消失的情况发生。
而当门的梯度接近 0 时,意味着上一时刻的信息对当前时刻并没有作用,此时没有必要把梯度回传。
这就是 LSTM 能够克服梯度消失、梯度爆炸的原因。
4. GRU
GRU 是 LSTM 的一种变种,结构比 LSTM 简单一点。LSTM有三个门 (遗忘门 forget,输入门 input,输出门output),而 GRU 只有两个门 (更新门 update,重置门 reset)。另外,GRU 没有 LSTM 中的 cell 状态 c。
图中的 zt 和 rt 分别表示更新门 (红色) 和重置门 (蓝色)。重置门 rt 控制着前一状态的信息 ht-1 传入候选状态 (图中带波浪线的ht) 的比例,重置门 rt 的值越小,则与 ht-1 的乘积越小,ht-1 的信息添加到候选状态越少。更新门用于控制前一状态的信息 ht-1 有多少保留到新状态 ht 中,当 (1-zt) 越大,保留的信息越多。
5. 总结
循环神经网络适合用于序列数据,也是学习 NLP 过程中必学的模型,很多 NLP 的应用、算法都用到了循环神经网络。
传统的循环神经网络 RNN 容易出现梯度消失与梯度爆炸的问题,因此目前比较常用的一般是 LSTM 及其变种。
在实际使用的过程中,还可以加深循环神经网络,即多层循环神经网络;也可以增加反向的网络,例如 biLSTM,可以同时利用前向的信息和后向的信息。