Layer Normalization作用及公式
Layer Normalization来源于这篇文章:
《Layer Normalization》
https://arxiv.org/pdf/1607.06450.pdf
其目的为减少深度神经网络中层与层之间的Covariate Shift,增加网络收敛速度。与Batch Normalization对比,Layer Normalization可显著减少参数量,特别适用于RNN系结构。
Layer Normalization的公式如下所示:
其中 和 是可学习的参数, 为element-wise乘法。
Layer Normalization的反向传播推导
Layer Normalization的梯度分三个部分:输入的部分和两个可学习参数的部分
可学习参数部分推导
可学习参数包括 和 。此处令:
输入梯度推导
原公式可变为:
则输入的梯度为:
下面重点分析最右部分:
其中 if ,否则为0。易得。下面将式(1)和式(2)分别代回原式:
式(1):
式(2):
注意式中。合并两式:
公式总结
码公式辛苦,转载请注明出处。