一般训练好的CNN,会出现前面的层的权重w矩阵中的数值普遍大于后面层中w数值,即使是有BN层,这种情况依然存在。
这种情况我们先看下w更新的公式,根据梯度下降算法,w=w-dw
,其中dw表示梯度,那么只要梯度消失的问题不彻底解决,前面层的梯度就会比较小,当几个epoch更新之后,前面层梯度不再更新,而后面层的权重仍在下降,导致最后的w值域不同。(这里有个问题,如果w初始化的特别小,还会出现这个问题吗?)
而为了防止后面层的权值过小导致后面层的输出值整体过小,设计者通过增加后面层的通道数来使加权累加后的数值仍然不会太小。
关于为什么CNN后面的层通道数多,以及为什么前面的层W数值偏大
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- 文章作者:Tyan博客:noahsnail.com | CSDN | 简书 声明:作者翻译论文仅为学习,如有侵权请...
- cite from: http://blog.csdn.net/myarrow/article/details/5...
- 文章作者:Tyan博客:noahsnail.com[http://noahsnail.com] | CSDN[...
- 最近公司要使用vscode作为开发工具,需要对vscode做一些定制功能,比如snippet提示,内容提示,以及其...