2016 · ICLR · IMPROVING PERFORMANCE OF RECURRENT NEURAL NETWORK WITH RELU NONLINEARITY
想法来源:在此之前提升RNN表现的三个方法:1. 复杂结构。2.复杂优化。3.权重初始化。本文只改变了激活函数
价值:提出了Relu可以提升RNN表现。分析了梯度爆炸消失原因,并提出来初始化的新方法保证W_hh特征值最大为1.
方法:
缺点:并不能完全解决梯度爆炸消失问题。
详细方案:
把f(·)使用relu。
然后初始化为:
用图说明消失和爆炸。
数据集:
- The Addition problem
- The multiplication problem
- MNIST
- Action recognition benchmark
实验:
模型的简称
-
Addition problem
mul problem
MNIST
-