循环神经网络 RNN、LSTM、GRU

与传统的前向神经网络和卷积神经网络 (CNN) 不同，循环神经网络 (Recurrent Neural Networks，RNN)是一种擅于处理序列数据的模型，例如文本、时间序列、股票市场等。本文主要介绍循环神经网络中的几种重要模型 RNN、LSTM、GRU 的发展过程与结构区别，并详细推导了 RNN 中的梯度爆炸与梯度消失的原因。

1. 循环神经网络背景

前向神经网络和 CNN 在很多任务中都取得不错的效果，但是这些网络结构的通常比较适合用于一些不具有时间或者序列依赖性的数据，接受的输入通常与上一时刻的输入没有关系。

但是序列数据不同，输入之间存在着先后顺序，当前输入的结果通常与前后的输入都有关。例如一段句子包含 4 个输入单词：“我”、“去”、“商场”、“打车”，4 个单词通过不同的顺序排列，会有不同的意思，“我打车去商场” 和 “我去商场打车”。因此我们通常需要按照一定的顺序阅读句子才能理解句子的意思。

面对这种情况我们就需要用到循环神经网络了，循环神经网络按照顺序处理所有的输入，每一时刻 t，都会存在一个向量 h 保存与 t 时刻相关的信息 (可以是 t 时刻前的信息或者 t 时刻后的信息）。通过向量 h 与输入向量 x，就可以比较准确地判断当前的结果。在下文中的符号表示：

xt 表示 t 时刻的输入向量(例如第 t 个单词的词向量)。
ht 表示 t 时刻的隐藏向量 (包含了从开始一直到 t 时刻的相关信息)。
yt 表示 t 时刻的输出向量 (通常是预测的结果)。

2. RNN

2.1 RNN 结构

RNN 是比较早期的循环神经网络，结构相对简单，通常的结构如下图所示。

RNN 神经元

图中 x、h、y 分别代表 RNN 神经元的输入、隐藏状态、输出。
U、W、V 是对向量 x、h、y 进行线性变换的矩阵。
在 RNN 中每一时刻都共用同一个神经元，将神经元展开之后如下图所示。

RNN 展开

可以看到 RNN 在 t 时刻的神经元接收的输入包括：当前时刻的输入 xt 以及上一时刻的隐藏状态 ht-1。输出包括：当前时刻的隐藏状态 ht 和当前时刻的输出 yt 。

因此在 RNN 中输入 xt 只包含 t 时刻信息，不包含顺序信息；而 ht 是根据 xt 和 ht-1 计算得到的，包含了历史信息与当前输入信息。ht 与 yt 的计算方法如下，计算 ht 时激活函数通常采用 tanh，计算输出 yt 时激活函数通常是 softmax (分类)。

2.2 RNN 的缺陷 (梯度消失与梯度爆炸)

3 个输入数据序列的 RNN

我们先看一下只有 3 个输入数据的序列，如上图所示。此时我们的隐藏层 h1、h2、h3 和输出 y1、y2、y3 的计算公式：

RNN 在时刻 t 的损失函数为 Lt，总的损失函数为 L = L1 + L2 + L3。

t = 3 时刻的损失函数 L3 对于网络参数 U、W、V 的梯度如下：

可以看到对于参数矩阵 V (对应输出 yt) 的梯度并没有长期依赖，只与 t = 3 时刻的序列相关。但是参数矩阵 U (对应输入 xt) 和参数矩阵 W (对应隐藏状态 ht) 的梯度均有长期依赖，依赖于之前的隐藏层状态 h1、h2。可以推导出时刻 t 的损失函数 Lt 对于 U、W 的梯度如下：

其中的连乘项就是导致 RNN 出现梯度消失与梯度爆炸的罪魁祸首，连乘项可以如下变换：

tanh' 表示 tanh 的导数，可以看到 RNN 求梯度的时候，实际上用到了 (tanh' × W) 的连乘。当 (tanh' × W) > 1 时，多次连乘容易导致梯度爆炸；当 (tanh' × W) < 1 时，多次连乘容易导致梯度消失。

因为 RNN 计算梯度时候的问题，所以 LSTM (长短期记忆网络) 就出现了。LSTM 在很多方面都碾压了 RNN，并且可以很好地缓解梯度消失与梯度爆炸的问题。

3. LSTM

我们可以通过 LSTM 比较好地缓解 RNN 梯度消失的问题，我们先了解一下 LSTM 的结构。

3.1 LSTM 结构

RNN 和 LSTM 结构

上图来源于 colah 的博客，可以看到 LSTM 和 RNN 的神经元结构有比较大的区别。传统 RNN 神经元会接受上一时刻的隐藏状态 ht-1 和当前输入 xt。

而 LSTM 的神经元在此基础上还输入了一个 cell 状态 ct-1， cell 状态 c 和 RNN 中的隐藏状态 h 相似，都保存了历史的信息，从 ct-2 ~ ct-1 ~ ct。在 LSTM 中 c 与 RNN 中的 h 扮演的角色很像，都是保存历史状态信息，而在 LSTM 中的 h 更多地是保存上一时刻的输出信息。

除此之外，LSTM 内部的计算更加复杂，包含了遗忘门、输入门和输出门，接下来分别介绍每一个门的作用。

遗忘门：上图中红色框中的是 LSTM 遗忘门部分，用来判断 cell 状态 ct-1 中哪些信息应该删除。其中 σ 表示激活函数 sigmoid。输入的 ht-1 和 xt 经过 sigmoid 激活函数之后得到 ft，ft 中每一个值的范围都是 [0, 1]。ft 中的值越接近 1，表示 cell 状态 ct-1 中对应位置的值更应该记住；ft 中的值越接近 0，表示 cell 状态 ct-1 中对应位置的值更应该忘记。将 ft 与 ct-1 按位相乘 (ElementWise 相乘)，即可以得到遗忘无用信息之后的 c’t-1。

输入门：上图中红色框中的是 LSTM 输入门部分，用来判断哪些新的信息应该加入到 cell 状态 c‘t-1 中。其中 σ 表示激活函数 sigmoid。输入的 ht-1 和 xt 经过 tanh 激活函数可以得到新的输入信息 (图中带波浪线的 Ct)，但是这些新信息并不全是有用的，因此需要使用 ht-1 和 xt 经过 sigmoid 函数得到 it， it 表示哪些新信息是有用的。两向量相乘后的结果加到 c’t-1 中，即得到 t 时刻的 cell 状态 ct。

输出门：上图中红色框中的是 LSTM 输出门部分，用来判断应该输出哪些信息到 ht 中。cell 状态 ct 经过 tanh 函数得到可以输出的信息，然后 ht-1 和 xt 经过 sigmoid 函数得到一个向量 ot，ot 的每一维的范围都是 [0, 1]，表示哪些位置的输出应该去掉，哪些应该保留。两向量相乘后的结果就是最终的 ht。

3.2 LSTM 缓解梯度消失、梯度爆炸

在上一节中我们知道，RNN 中出现梯度消失的原因主要是梯度函数中包含一个连乘项，如果能够把连乘项去掉就可以克服梯度消失问题。如何去掉连乘项呢？我们可以通过使连乘项约等于 0 或者约等于 1，从而去除连乘项。

LSTM 中通过门的作用，可以使连乘项约等于 0 或者 1。首先我们看一下 LSTM 中 ct 与 ht 的计算公式。

在公式中 ft 与 ot 都是通过 sigmoid 函数得到的，意味着它们的值要么接近 0，要么接近 1。因此在 LSTM 中的连乘项变成：

因此当门的梯度接近1时，连乘项能够保证梯度很好地在 LSTM 中传递，避免梯度消失的情况发生。

而当门的梯度接近 0 时，意味着上一时刻的信息对当前时刻并没有作用，此时没有必要把梯度回传。

这就是 LSTM 能够克服梯度消失、梯度爆炸的原因。

4. GRU

GRU 是 LSTM 的一种变种，结构比 LSTM 简单一点。LSTM有三个门 (遗忘门 forget，输入门 input，输出门output)，而 GRU 只有两个门 (更新门 update，重置门 reset)。另外，GRU 没有 LSTM 中的 cell 状态 c。

GRU 神经元

图中的 zt 和 rt 分别表示更新门 (红色) 和重置门 (蓝色)。重置门 rt 控制着前一状态的信息 ht-1 传入候选状态 (图中带波浪线的ht) 的比例，重置门 rt 的值越小，则与 ht-1 的乘积越小，ht-1 的信息添加到候选状态越少。更新门用于控制前一状态的信息 ht-1 有多少保留到新状态 ht 中，当 (1-zt) 越大，保留的信息越多。

5. 总结

循环神经网络适合用于序列数据，也是学习 NLP 过程中必学的模型，很多 NLP 的应用、算法都用到了循环神经网络。

传统的循环神经网络 RNN 容易出现梯度消失与梯度爆炸的问题，因此目前比较常用的一般是 LSTM 及其变种。

在实际使用的过程中，还可以加深循环神经网络，即多层循环神经网络；也可以增加反向的网络，例如 biLSTM，可以同时利用前向的信息和后向的信息。

参考文献

colah 的博文：Understanding LSTM Networks
简书文章：RNN中梯度消失和梯度爆炸的原因

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,053评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,527评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,779评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,685评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,699评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,609评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,989评论 3赞 396
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,654评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,890评论 1赞 298
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,634评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,716评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,394评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,976评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,950评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,191评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,849评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,458评论 2赞 342