任何事物的从无到有在到完善都是一个推陈出新的过程,也是一个问题接着一个问题解决的过程,卷积神经网络也不例外,了解卷积神经网络的发展历史有助于我们从整体上把握卷积神经网络,从而知道以前的研究学者解决了什么问题乃至知道如今的继续面临着怎样的困境又如何去解决,不能只知其然而不知所以然,这样学习的话会总是在跟着别人的脚步走,一直看别人写的博客,看别人写的代码,这没有什么太大价值。要么就投入科研一线,去探索最前沿的东西,要么就是能将别人新的学术成果快速的应用到实践当中去,要做到这点的前提就是对技术目前的状况要有一个大体上的认知。而想要把握住卷积神经网络的发展史当然就得从一些经典卷积的神经网络上分析,下面就来聊聊那些经典的卷积神经网路。
上图是2010年至2015年的 ImageNet挑战赛的各种神经网络图,上面很直观的看到2011-2012年是一个分水岭,Hinton的AlexNet将错误率下降了将近10个百分点,由此AlexNet也获得了我们李飞飞教授举办的ImagNet挑战赛的第一名。也正是因为AlexNet取得的成功振奋了AI研究学者的低迷的士气,推动了深度学习发展的新一波浪潮,也就像当年林帅在平型关歼灭日军一个团带给了抗日民族统一战线极大的鼓舞,打败了日军不可战胜的神话。
一、AlexNet
当时的AlexNet由于受限于软硬件水平,将卷积层的卷积核对半分到两块GPU上运行,合理的加快了运算速度,但是这不是造成错误率下降这么多的原因,那么究竟是什么原因嘞?可以想到AlexNet一定有他的创新之处,在谈他的创新之处之前,先来看看在AlexNet之前的具有代表意义的一个卷积神经网络LeNet5:
在AlexNet之前的卷积神经网络都是沿袭的Yann LeCun发明的LeNet5的路子,先来看看LeNet5的结构,她是一个5-6层的卷积神经网络,其卷积核可以看做是个3x3的核,没有采用激活函数或者激活函数使用的sigmoid和阶梯函数,注意这里的Subsampling是下采样和我们现在的MAXPOOL AND AVEPOOL是不同的,他是各行或者搁列或者两种皆而有之的一种采样方式。
而AlexNet采用的11x11大小的核,使用了激活函数ReLU,甚至使用了dropout来regularzation,是一个8层的神经网络,其创新之处就在于加深了网络的深度,采用了不同的激活函数,采用了防止overfitting的方式dropout
二、牛津大学发明的VGG
VGG是一个11-19层的卷积神经网络,探索出来了3X3和1X1的核减小了感受野但是性能却提升了很多,深度也比2012的AlexNete更深,他是2014年ImageNet挑战赛的第二名
三、GoogLeNet
GoogLeNet 谷歌研究团队发明的一个网络,名字后面接着LeNet是为了纪念Yann LeCun发明的LeNet5
GoogLenet也探索出来了 3x3和1x1 的感受野,但是他还探索出了新的东西,就是每一个卷积层使用不同类型的卷积核,保持每一个卷积核的输出通道是一样的然后将他们进行concat操作,比如上图中有32x1x1的的卷积核,还有32x3x3的卷积核,32x5x5的卷积核,还有一个3x3的池化,然后将他们的结果进行concat为了将维度保持一致我们可以对其进行padding和stride设置,多个不同类型的感受野也就可能能够感受到各种不同的信息量。GoolLenet采用的是一个22层的网络比起VGG的深度又更深了,GoolLenet是2014年ImageNet挑战赛的冠军。
从LeNet5到GoolLeNet网络的层数从5->8->19->22,层数越来越高,效果也越来越好,那我们是不是就因此能够大胆的推测层数越高效果必然越好嘞?这恐怕未必,要知道马克思主义不就告诉我们吗?量变必然导致质变,事实上也是如此,经过实践证明随着层数的增加性能会下降。
随着网络层数的增加事实证明并不能如所猜想的那样性能会上升,如上图所示,56层网络和20层的网络想对比错误率反而上升了,这种情况不能够就是为overfitting,因为如果是过拟合的话那么在训练集上的错误率应该会下降才对,那么是什么原因导致的这种层数增多性能反而下降嘞?
经过目前的研究表明主要由一下几点:
- 梯度爆炸
- 梯度弥散
- 网络退化:
也即网络层数很深的时候后面的层数可能已经起
不到优化的作用了,相当于没有作用 - 特征提取变异:
这是我自己发明的词语,就是说当特征提取到optimal的时候如果在继续提取就会导致提取出的特征只会增大损失函数值,相当于特征变异了。
根据反向传播的原理,由链式求导法则如果随着网络层数的增加其计算图会很深,各种层的梯度相乘的时候如果都相对较大就会导致梯度下降时候减去的梯度和很大,这时候下降之后的参数值有可能就会直接越过各种极小值点,收敛会变的很慢,或者收敛的时候已经越过了最佳收敛点。而当各层的梯度值想对很小的时候设若小于1这个时候层数很大会使得最终梯度趋向于零,当网络层数很深的时候意味着在更新权值的时候只会更新深层的权值,浅层的权值在原地踏步,这样也会导致收敛速度和收敛效果变差。
如果仅仅从理论上面来说,CNN的深度越深那么其曲线变化就会更加的丰富,就能够拟合任何复杂的曲线,但是随着网络深度的加深就会带来上面所提到的那些负面影响,梯度弥散,梯度爆炸,网络退化,特征提取变异。那么如何去彻底的消除这样的负面效果,或者在一定的程度上缓解这样的负面效果嘞?这个就要谈到由我们的何凯明同学发明的ResNet残差网络了。
四、ResNet残差网络
大名鼎鼎的何凯明同学的具体简历就不在这里详细说明了,网上查就行了,下面来看他的算法原理。
上面图中的网络结构就是两个卷积层组成一个整体称作一个残差块,然后将两个残差块之间变换现在记做 F(x,w,b) 然后将残差块最后的输出记做 H(x) = F(x,w,b)+x,也就是说在传统网络的基础上实现了一个短接模块
shortcut connection
,这有什么作用嘞?假如x是浅层提取出的特征而且是optimal最优特征,那么通过上面的分析就知道如果接下来的层继续提取特征就会继续损失函数值,这时候如果我们能够构建一个 H(x) = x的identity mapping
即当提取出的特征是最优的时候后面的网络层不对x在进行特征提取只是实现恒等映射,那么就能够有效的防止特征提取变异,保证之后的网络层都保持这个提出的最优特征,当网络层很深很深的时候网络退化虽然是不可避免的,但是我们能够通过有效的手段来阻止特征提取变异即通过恒等映射来实现,但是如果我们直接学习有一个恒等映射 F(x) = x 这是很难的,在我们的算法机制上来在反向传播和梯度下降的过程中大家都知道loss函数为了其损失值是会逼迫F(x)趋向于x但是由于梯度消失和梯度弥散这会导致虽然有这个趋势但是却并不能很好的实现,很多的实践结果其实已经验证了这个问题的,但是何凯明同学的残差网络就有效的在一定程度在解决了梯度弥散和梯度爆炸的问题使得有效的实现identity mapping
,之前说过由于我们添加了shortcut connection
使得最后的输出由 F(x) 变成了 H(x) = F(x)+x,根据反向传播趋势,如果x是提取出的最优的特征,那么如果 F(x) 的值增大就会导致loss的损失值增大,梯度下降的时候就会使得 F(x) 逼近与零来实现恒等映射,但是因为我们CNN算法机制是建立在反向传播和梯度下降上的,如果不能解决梯度爆炸和梯度弥散显然是不能够解决网络特征提取变异的问题的,上面的图只是一个残差模块,我们还不能够看出其威力来,现在看下面的整个残差网络图然后在推到反向传播公式我们就能够很好的理解这个Identity Mapping in Deep Residual Networks
的威力之所在。
假设 那么残差块在经过激活函数 即如果激活函数是一个恒等映射,其实这个激活函数可以通过normalization
和ReLU
来实现,这样将 即 这时候我们就可以构建从浅层残差模块l到深层残差模块L的前向传播递推公式 然后我们在从L层反向传播至l层公式如下:
这样就将误差传播时候的链式乘法转换成了加法,在很大程度少缓解了梯度弥散和梯度爆炸,而且误差能够从一个残差模块传播到另一个残差模块,这样当x是optimal feature
的时候损失函数就会逼迫趋向于零,这样就很好的解决了在网络层数很深的时候导致的特征提取变异问题,使得深层网络的性能得到提升。
正因为深度残差网络的这种优良特性使得何凯明同学的团队在2015年获得了ImageNet的冠军。
残差模块的模型是 何凯明同学做了很多的试验表明当即shortcut connection
是一个恒等映射的时候网络的性能是最优的,为了方便理解假设那么其反向传播公式就会变成
显然当很大的时候会导致梯度爆炸。其他映射就有可能到至梯度弥撒或者梯度爆炸或者兼而有之。
shortcut connetction
也有很多种形式且看下图:
可见after addition
是凯明同学试验之后推荐的