ICCV 2017 Learning Efficient Convolutional Networks through Network Slimming（模型剪枝）

前言

这篇文章是ICCV 2017的一篇模型压缩论文，题目为《
Learning Efficient Convolutional Networks through Network Slimming》。2019年有相当多的关于YOLOv3的剪枝开源工程，他们大多数的原理都来自于这篇论文，这篇论文的思想值得仔细品读。论文原文地址和Pytorch开源代码地址见附录。

基础原理

这篇文章不同于之前介绍的那篇深度学习算法优化系列一 | ICLR 2017《Pruning Filters for Efficient ConvNets》
论文直接对卷积层的权重进行剪枝。而是提出了一个针对BN层的剪枝方法，论文利用BN层的权重(也就是BN层的缩放系数)来评估输入通道的重要程度(score)，然后对score低于阈值(threshold)的通道进行过滤，之后在连接成剪枝后的网络时已经过滤的通道的神经元就不参与连接。

具体方法

论文提供了一种简单的方法来执行通道剪枝。这一节首先讨论channel-wise稀疏化的优势和运到的挑战，然后介绍利用BN的缩放系数来高效的鉴别和剪枝不重要的通道。

channel-wise稀疏化

稀疏化可以在不同的级别识别，即weight-level，kernel-level,layer-level。weight-level的稀疏化有最高的灵活性和泛化性能，也可以获得更高的压缩比例，但它通常需要特殊的软硬件加速器才能在稀疏模型上快速推理。而layer-level稀疏化不需要特殊的包做推理加速，但是它灵活性上不如weight-level稀疏化。事实上，只有深度够深(超过50层)，移除某些层才会很高效。相比之下,channel-wise稀疏化在灵活性和实现上做了一个平衡，它可以被应用到任何经典的CNN或者全连接层(把每一个神经元看成一个通道)，由此得到的网络本质上也是一个瘦的网络，可以获得推理速度的提升。

挑战

实现通道稀疏化需要将和一个通道有关联的所有输入和输出的连接都剪掉，但是对于已经预训练好的模型来说，不太可能做到这一点。因此这个对已经预训练好的模型做通道剪枝效率不高，比如对预训练好的ResNet做通道剪枝，在不损伤准确率的情况下，只能减少10%的参数量。"Learning structured sparsity in deep neural networks"这项工作通过将稀疏正则化强加到训练目标函数中，具体来讲就是采用group LASSO来是的所有卷积核的同一个通道在训练时同时趋近于0。然而，这个方法需要额外计算新引入的和所有卷积核有关的梯度项，这加重了网络的训练负担。

缩放因子和稀疏性惩罚

论文的想法是对于每一个通道都引入一个缩放因子 $\gamma$ ，然后和通道的输出相乘。接着联合训练网络权重和这些缩放因子，最后将小缩放因子的通道直接移除，微调剪枝后的网络，特别地，目标函数被定义为：

在这里插入图片描述

其中代表训练数据和标签，是网络的可训练参数，第一项是CNN的训练损失函数。是在缩放因子上的乘法项，是两项的平衡因子。论文的实验过程中选择，即正则化，这也被广泛的应用于稀疏化。次梯度下降法作为不平滑(不可导)的L1惩罚项的优化方法，另一个建议是使用平滑的L1正则项取代L1惩罚项，尽量避免在不平滑的点使用次梯度。

剪掉一个通道的本质是剪掉所有和这个通道相关的输入和输出连接关系，然后获得一个窄的网络，而不需要借助特殊的计算软硬件。缩放因子的作用是通道选择，因为这里是将缩放因子的正则项和权重损失函数联合优化，网络可以自动鉴别不重要的通道，然后移除掉，几乎不损失精度。

在这里插入图片描述

利用BN层的缩放因子

BN层已经被大多数现代CNN广泛采用，做为一种标准的方法来加速网络收敛并获得更好的泛化性能。BN归一化激活值的方法给了作者设计一种简单高效的方法的灵感，即与channel-wise缩放因子的结合。尤其是，BN层使用mini-batch的统计特性对内部激活值归一化。 $z_{in}$ 和 $z_{out}$ 分别是BN层的输入和输出，B指代现在的minibatch，BN层执行下面的转换：

在这里插入图片描述

通常的做法就是在卷积层之后插入一个BN层，引入channel-wise的缩放/平移参数。因此，论文直接将BN层的参数作为我们网络瘦身的缩放因子，这样做的又是在于没有给网络带来额外的开销。事实上，这也可能是我们能够学习到的最有意义的做通道剪枝的缩放因子，因为1）如果我们不使用BN层，而在卷积层之后加入一个缩放层，缩放因子的值对于评估一个通道的重要性没有任何意义，因为卷积层和缩放层就是一种线性变换而已。我们可以通过一方面降低缩放因子的值一方面方法卷积层的权重来使最终的结果保持不变；2）如果我们在BN层之前插入一个缩放层，缩放层的影响将完全被BN层所掩盖；3）如果在BN层之后插入一个缩放层，那么对于每个通道将会有两个连续的缩放因子。

通道剪枝和微调

引入了缩放因子正则化后，训练出来的模型许多缩放因子都会趋近于0，如Figure1所示。具体来说，假设经过卷积层之后的特征图维度为 $h\times w \times c$ ，其中 $h$ 和 $w$ 分别代表特征图的长宽， $c$ 代表特征图的通道数，将其送入BN层会得到归一化后的特征题意，特征图中的每一个通道都对应一组 $\gamma$ 和 $\lambda$ ，前面说的剪掉小的 $\gamma$ 对应的通道实际上就是直接剪掉这个特征图对应的卷积核。至于什么样的 $\gamma$ 算小呢？这个取决于我们为整个网络所有层设置的一个全局阈值，它被定义为所有缩放因子值的一个比例，例如我们要剪掉整个网络中70%的通道，那么我们先对缩放因子的绝对值排个序，然后取从小到大排序的缩放因子中70%的位置的缩放因子为阈值。这样我们最终就可以得到一个参数较少，运行时内存小，紧凑的CNN模型了。

Muti-Pass

论文提出可以将剪枝方法从单阶段的学习扩展到多阶段，也即是对网络进行多次剪枝，这样可以得到一个压缩程度更高的模型。

在这里插入图片描述

跨层连接和预激活结构怎么处理

上面的方法可以直接用到大多数比较简单的CNN结构，如AlexNet，VGGNet等。但对于有跨层连接和预激活设计的网络如ResNet、DenseNet等，应该如何使用这个方法呢？对于这些网络，每一层的输出会作为后续多个层的输入，且其BN层是在卷积层之前，在这种情况下，稀疏化是在层的输入末端得到的，一个层选择性的接受所有通道的子集去做下一步的卷积运算。为了在测试时节省参数和运行时间，需要放置一个通道选择层鉴别出重要的通道。这个地方暂时没理解不要紧，我后面会分析源码，看到代码就懂了。

实验

论文分别在CIFAR、SVHN、ImageNet、MNIST数据上做了测试，训练和测试一些细节如下：

使用SGD算法从头开始训练网络。
在CIFAR和SVHN数据集上，minibatch为64，epochs分别为160和20，初始的学习率为0.1，在训练迭代次数的50%和75%时均缩小10倍。
在ImageNet和MNIST数据集上，训练的迭代次数epochs分别为60和30，minibatch为256，初始学习率为0.1，在训练迭代次数的1/3和2/3时缩小10倍。
权重衰减率为 $10^{-4}$ ，所有的实验中通道缩放因子都初始化为0.5。
超参数 $\lambda$ 依靠网络搜索得到，常见的范围是 $10^{-3}$ ， $10^{-4}$ ， $10^{-5}$ 。对于VGG16选择 $\lambda$ 为 $10^{-3}$ ，对于ResNet和DenseNet，选择 $\lambda$ 为 $10^{-5}$ ，对于ImageNet上的 $VGG-A$ ，选择 $\lambda$ 为 $10^{-5}$ 。
剪枝之后获得了一个更窄更紧凑的模型，接下来便是微调，在CIFAR、SVHN、MNIST数据集上，微调使用和训练相同的优化设置；在ImageNet数据集上，由于时间的限制，我们仅对剪枝后的VGG-A使用 $10^{-3}$ 的学习率学习 $5$ 个epochs。

CIFAR和SVHN上的结果

在这里插入图片描述

参数量和FLOPs

在这里插入图片描述

在ImageNet和MNIST上的结果

在这里插入图片描述

Muti-Pass结果

在这里插入图片描述

分析

在网络剪枝中有2个关键的超参数，第一个是百分比 $t$ 和稀疏正则项系数 $\gamma$ ，它们对模型剪枝的影响如下。

剪枝百分比的影响： $t$ 设置的过小，节省的资源会很有限，设置的过大，剪掉太多的通道会给准确率带来永久性损伤，无法通过后续的微调恢复.Figure5展示了在CIFAR-10上训练的DenseNet-40模型， $\gamma=10^{-5}$ 。

在这里插入图片描述

通道稀疏正则化的影响。Figure4展示的是不同 $\gamma$ 取值下，缩放因子值的分布情况。可以看到当 $\gamma=10^{-4}$ 时，几乎所有的缩放因子值都掉到了一个接近零的区域，这个过程中可以看成是一种类似于网络中间层的选择过程，只有不可忽视的缩放因子对应的通道才会被选择。

在这里插入图片描述

然后论文进一步通过热力图对这个过程可视化，Figure6展示了VGGNet的某一层缩放因子的幅值随着迭代次数的变化情况，每个通道开始的权重相同，缩放因子值也相同，随着训练的进行，一些通道的缩放因子会逐渐变大(深色)，一些通道的缩放因子会逐渐变小(浅色)。

结论

这篇文章提出利用BN层的缩放系数来进行剪枝，在多个大型数据集和多个大型网络的测试结果说明了这个方法的有效性。这个方法可以在丝毫不损失精度的条件下将分类中的SOTA网络如VGG16，DenseNet，ResNet剪掉20倍以上的参数，是这两天多数剪枝算法的奠基石。后面会继续更新这个算法的一些源码解析。

附录

论文原文：https://arxiv.org/pdf/1708.06519.pdf

Pytorch源码：https://github.com/Eric-mingjie/network-slimming

欢迎关注我的微信公众号GiantPandaCV，期待和你一起交流机器学习，深度学习，图像算法，优化技术，比赛及日常生活等。

图片.png

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,530评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 86,403评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,120评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,770评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,758评论 5赞 367
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,649评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,021评论 3赞 398
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,675评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,931评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,659评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,751评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,410评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,004评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,969评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,042评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,493评论 2赞 343

ICCV 2017 Learning Efficient Convolutional Networks through Network Slimming（模型剪枝）

前言

基础原理

具体方法

channel-wise稀疏化

挑战

缩放因子和稀疏性惩罚

利用BN层的缩放因子

通道剪枝和微调

Muti-Pass

跨层连接和预激活结构怎么处理

实验

CIFAR和SVHN上的结果

参数量和FLOPs

在ImageNet和MNIST上的结果

Muti-Pass结果

分析

结论

附录

推荐阅读更多精彩内容