GoogLeNet的心路历程（二）

本文介绍关于GoogLeNet第一篇正式论文，习惯称为inception v1，如下：

[v1] Going Deeper with Convolutions，top5 error 6.67%

在开始介绍论文之前，先说一些题外话，GoogLeNet这个名字的诞生由两方面促成，一是设计者在Google工作，二是向LeNet致敬。GoogLeNet只是一个名字，它的核心内容是发明了Inception Architecture（以下简称IA），发明IA的灵感来自于2013年的一篇论文《Provable Bounds for Learning Some Deep Representations》，这篇论文读起来非常困难，需要很多的数学知识，有兴趣的可以看看。

一、inception v1的主要贡献

1、提出inception architecture并对其优化
2、取消全连层
3、运用auxiliary classifiers加速网络converge

接下来对以上几点分别介绍。

二、Inception architecture

首先得说一下Szegedy发明IA的动机，他估计是在某天阅读了Provable Bounds for Learning Some Deep Representations这篇论文，又结合自己多年来在深度学习界摸爬滚打的经验，发现传统的提高网络精度的方法是一条邪路（P.S. 传统的方法指的是扩大网络规模或增大训练数据集），而想从本质上提高网络性能，就得用sparsely connected architectures，即“稀疏连接结构”。

我自己对“稀疏连接结构”的理解是这样的，用尽可能的“小”、“分散”的可堆叠的网络结构，去学习复杂的分类任务，怎么体现“小”、“分散”呢？如下图：

Inception Architecture，naive version

原来造神经网络，都是一条线下来，我们可以回想一下AlexNet、VGG等著名网络，而IA是“分叉-汇聚”型网络，也就是说在一层网络中存在多个不同尺度的kernels，卷积完毕后再汇聚，为了更好理解，“汇聚”的tensorflow代码写出来是这样的：

net = tf.concat(3, [branch1x1, branch5x5, branch3x3, branch_pool])

就是简单的在kernel维度把矩阵concatenate起来。但是这么做有一个问题，会产生“维度爆炸”，什么意思呢？假如branch1x1、branch3x3、branch5x5都有256个kernels，加上branch_pool的kernels（假定为256），经过tf.concat操作，最终的kernels是256×4=1024个kernels！这没法接受啊！如果多层IA叠加起来，那kernels的数量岂不上天！！于是Szegedy就改进了一下，如下图：

Inception module with dimension reductions

他加入了kernels数量控制方式，就是那些1×1的卷积层，这些1×1的卷积层输出kernels会比上一层要少，这样即便在经过tf.concat以后，总kernels数量不会增加太多。另外，这些1×1的卷积层还增加了网络的非线性程度。

关于IA的结构就介绍完了，可是，为什么？这样的结构有啥用？Szegedy在论文里解释过一点点：IA之所以能提高网络精度，可能就是归功于它拥有多个不同尺度的kernels，每一个尺度的kernel会学习不同的特征，把这些不同kernels学习到的特征汇聚给下一层，能够更好的实现全方位的深度学习！

三、取消全连层

为什么VGG网络的参数那么多？就是因为它在最后有两个4096的全连层！Szegedy吸取了教训，为了压缩GoogLeNet的网络参数，他把全连层取消了！其实我个人也认为全连层作用确实没那么大，取消了也好，GoogLeNet网络详细配置如下：

GoogLeNet详细配置

从上图就可以看出，网络的最后几层是avg pool、dropout、linear和softmax，没有看到fully connect的影子。现在取消全连层貌似是个大趋势，近两年的优秀大型神经网络都没有全连层，可能是全连层参数太多，网络深度增加了以后，难以接受吧

四、Auxiliary classifiers

搞机器学习的都知道，梯度消散是所有深层网络的通病，往往训练到最后，网络最开始的几层就“训不动了”！于是Szegedy加入了auxiliary classifiers（简称AC），用于辅助训练，加速网络converge，如下图画红框部分：

GoogLeNet

以上图片摘自此文，因为网络太深了，竖着太长，就把它横过来看了。可以看到，笔者在网络中间层加入了两个AC，这两个AC在训练的时候也跟着学习，同时把自己学习到的梯度反馈给网络，算上网络最后一层的梯度反馈，GoogLeNet一共有3个“梯度提供商”，先不说这么做有没有问题，它确实提高了网络收敛的速度，因为梯度大了嘛。另外，GoogLeNet在做inference的时候AC是要被摘掉的。

AC这种加速收敛训练方式与ResNet表面上看不太一样，但是我感觉本质上应该是类似的。ResNet也很深，但是它先是通过构建浅层网络学习参数，再把浅层网络的参数应用到较深网络中，从而尽可能减少梯度消散的影响。GoogLeNet是直接把浅层网络的训练和深层网络的训练揉到一起了。关于这个问题还有待深究。

最后编辑于：2017.12.03 13:58:16

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,457评论 5赞 459
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,837评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,696评论 0赞 319
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,183评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,057评论 4赞 355
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,105评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,520评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,211评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,482评论 1赞 290
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,574评论 2赞 309
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,353评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,213评论 3赞 312
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,576评论 3赞 298
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,897评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,174评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,489评论 2赞 341
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,683评论 2赞 335

GoogLeNet的心路历程（二）

一、inception v1的主要贡献

二、Inception architecture

三、取消全连层

四、Auxiliary classifiers

推荐阅读更多精彩内容