(2014,VGG)Very Deep Convolutional Networks for Large-Scale Image Recognition

1. VGG-Net网络的特点

自从AlexNet在ILSVRC2012上面大放光芒之后,接下参加ImageNet竞赛的所有top模型基本上都采用了CNN网络架构。CNN网络架构在2013年没有很大的进展,其中相对引人注目的一个模型被称为ZF-Net,来自下面这篇论文:

这篇论文的亮点是做了一些CNN网络中各个卷积层feature map的可视化工作,试图解释不同深度/level的卷积层到底学习到了图像内容的哪些特征,探究CNN从低层到高层是如何一步步先提取图像的低级特征,然后对低级特征进行组合,进而得到更加抽象的高级语义特征的。

但从网络结构上来说,ZF-Net没什么亮点,只是对AlexNet进行了小修小补(比如把AlexNet第一个卷积层kernel=11x11/s=4改为kernel=7x7/s=2),最终在ImageNet分类竞赛上面的top-5准确率,也只从AlexNet的16.4%提升到ZF-Net的14.8%。

而在接下来的2014年,CNN网络架构设计迎来了第二次爆发,代表性的两个模型是VGG-Net和GoogleNet。这一节介绍VGG-Net。

VGG-Net这篇论文的主要亮点有:

  • 通过详细的对比试验,探究了在统一的CNN网络架构下,不同深度的卷积层对CNN网络性能的影响;
  • 卷积层全部使用了3X3的卷积核,组成了一个相当优雅的网络结构,并指出了小的卷积核的优势;
  • 从CNN分类网络构成思想来看,VGG-Net延续了包括LeNet-5、AlexNet以及ZF-Net在内的一贯作风,即卷积层+全连接层的网络组成,一系列卷积层用于提取图像特征,最后使用3个全连接层/MLP用作分类器,并且将这一构成模式发挥到了极致,通过后面我们对NIN/Inception/ResNet的分析中将会看到,全连接层的使用会大大增加CNN分类模型的空间复杂度(正比于模型参数数量,也可以从模型文件的大小来理解),对于分类网络来说,使用全局平均池化(global average pooling)层代替全连接层是更优的选择。

VGG-Net总共包含了5个版本ABCDE,每个版本的网络结构如下表所示:


VGG-Net网络设计的特点如下:

  • 所有VGG-Net版本在全连接层部分完全相同,所有卷积层完全相同:kernel=3x3,padding=1,stride=1,这样造成的结果是,卷积前后图像/feature map的尺寸保持不变。通过5个kernel=2x2,stride=2的最大池化层来逐渐减小feature map的分辨率;

  • 5个VGG-Net版本,从A-E,通过逐渐增加卷积层,使得模型的性能逐渐提升,很好地验证了CNN网络的深度/depth对网络性能的影响,网络越深,模型性能越好;

  • 全程使用3x3的小卷积核,是VGG-Net的另一大特点,我们知道,对于感受野来讲,2个3x3卷积相当于1个5x5卷积操作,3个3x3卷积相当于1个7x7卷积,那3个3x3卷积相比于1个7x7卷积有什么优势呢?具体包含两个优点:

    • 第一点,3个3x3卷积包含了3个Relu非线性层,1个7x7卷积只有一个Relu非线性层,显然3个Relu层能使得学习到的决策函数的识别能力更强;
    • 第二点,3个3x3卷积相比于1个7x7卷积,包含了更少的模型参数。假设输入层和输出层的通道数都为C,3个3x3卷积总共包含3x3x3xCxC=27C2个权重参数,而1个7x7卷积包含7x7xCxC=49C2个权重参数,多了81%,更少的权重参数,使得模型更不容易过拟合(over-fitting)。
  • VGG-Net也有一个缺点,就是网络的模型参数很多,下图是VGG-Net的5个版本的模型参数量:

其中用的最多的是VGG-Net的D版本,习惯上称为VGG16,因为它包含16个权重层。后面我们会知道,VGG-Net的空间复杂度基本上是主流的CNN分类模型中最大的之一。

  • 另外,关于VGG-Net的模型的数据增强,训练策略,以及测试时的多尺度/裁剪策略等,不是这一系列文章的重点,感兴趣可以看论文中的细节,我们重点是学习总结每个经典CNN网络的架构设计特点。

2. 总结

VGG-Net延续了分类网络中,卷积层+全连接层的设计特点,全程采用了非常小的3x3卷积核,通过实验,不断加深卷积层的数目,得到了一个结构优雅,同时性能强大的经典CNN模型(唯一的缺点是模型复杂度很大),值得一提的是,虽然VGG16在2014年的ImageNet分类竞赛中不敌GoogleNet只得了亚军,但那是多个模型融合后的结果,单个模型的性能的话,VGG16是比GoogleNet强的。这也侧面地证明了VGG卷积架构的优异性。

因此在随后几年,其他领域比如目标检测、场景文本检测以及风格迁移,很多经典模型都使用了VGG16的卷积部分作为特征提取主干网络。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342

推荐阅读更多精彩内容