传统RNN网络中的梯度下降现象会导致RNN的记忆能力并不太好。为了使得RNN网络能够记得更久以前的信息,就有了GRU(gated recurrent unit)。GRU使得信息可以直接从过去流到现在,而不需要经过连续的矩阵作用。
我们在这里以tanh-RNN为例来说明,传统的网络更新流程如图Fig 0所示。
但是GRU采用的策略如Fig1所示。
首先我们在h中选择一个子集,这个子集经过传统的tanh作用后,我们得到h',数学形式如Fig 2中所示。
那么r(eset)这个值该怎么决定呢?
r决定了h中哪些元素在产生h'的时候起作用。但是这里仍然不是最后的updata,最后的update如图Fig 4所示。
u是update gate,它的定义如图Fig 5所示。