Channel Pruning for Accelerating Very Deep Neural Networks 算法笔记

Channel Pruning for Accelerating Very Deep Neural Networks

论文地址：https://arxiv.org/abs/1707.06168

代码地址：https://github.com/yihui-he/channel-pruning

作者将目前的CNN加速研究分为三类：

Optimized implementation ：比如FFT

Quantization : 代表为BinaryNet

Structured simplification: 作者又分为三类：

tensor factorization ：mobilenet 为代表，作者提出这种方法无法分解1*1的卷积，而1*1的卷积普遍用在GoogleNet ，ResNet 和Xception 上

sparse connection：以deep compression 为代表，这种方法缺点是被pruning 后的连接和神经元会形成不规则的结构，不容易在硬件上进行配置实现

channel pruning：本文采用的方法，优点是直接减少不重要的通道数，缺点是会对下游层产生影响，因此要reconstruction

文章的核心内容是对训练好的模型进行通道剪枝（channel pruning），而通道减枝是通过迭代两步操作进行的：第一步是channel selection，这一步是采用LASSO regression来做的，其实就是添加了一个L1范数来约束权重，因为L1范数可以使得权重中大部分值为0，所以能使权重更加稀疏，这样就可以把那些稀疏的channel剪掉；第二步是reconstruction，这一步是基于linear least squares（也就是最小二乘，或者叫最小平方）来约束剪枝后输出的feature map要尽可能和减枝前的输出feature map相等，也就是最小二乘值越小越好。可以看出本文的通道剪枝是对训练好的模型进行的，也就是文章说的inference time，当然作者在最后的conclusion中也提到以后会在train time中也引进通道剪枝，希望能减少训练的时间。

原文中作者列举的加速效果：Our pruned VGG-16 achieves the state-of-the-art results by 5 speed-up along with only 0.3% increase of error. More importantly, our method is able to accelerate modern networks like ResNet, Xception and suffers only 1.4%, 1.0% accuracy loss under 2 speedup respectively, which is significant.

本文采用的通道剪枝（channel pruning）是模型压缩和加速领域中一种简化网络结构的操作，文中作者还列举了其他两种常见的简化网络结构的操作：sparse connection和tensor factorization，可以看Figure1的对比。（a）表示传统的3层卷积操作。（b）表示sparse connection，这是通过去掉一些参数很小的连接得到的，理论上是有明显的加速效果的，但是在实现过程中并不容易，主要因为稀疏连接层的形状不规则。（c）表示tensor factorization，比如SVD分解，但是这种操作其实并不会减少channel数量，因此很难带来明显加速。（d）就是通道剪枝（channel pruning），也就是直接对channel做剪枝，移除掉一些冗余的channel，相当于给网络结构瘦身，而且各个卷积层的形状还比较统一。

Figure2是本文对卷积层做通道剪枝的一个示意图。先看左边大的虚线框，其中字母B表示输入feature map，同时c表示B的通道数量；字母W表示卷积核，卷积核的数量是n，每个卷积核的维度是c*kh*kw，kh和kw表示卷积核的size；字母C表示输出feature map，通道数是n。因此通道剪枝的目的是要把B中的某些通道剪掉，使得剪掉后的B和W的卷积结果能尽可能和C接近。当要剪掉B中的一些feature map的通道时，相当于剪掉了W中与这些通道对应的卷积核（对应W中3个最小的立方体块），这也是后面要介绍的公式中β的含义和之所以用L1范数来约束β的原因，因为L1范数会使得W更加稀疏。另外生成这些被剪掉通道的feature map的卷积核也可以删掉（对应Figure2中第二列的6个长条矩形块中的2个黑色虚线框的矩形块）。

因此最重要的就是如何判断B中的哪些通道要剪掉，具体是分两步来迭代进行的：In one step, we figure out the most representative channels, and prune redundant ones, based on LASSO regression. In the other step, we reconstruct the outputs with remaining channels with linear least squares. We alternatively take two steps. Further, we approximate the network layer-by-layer, with accumulated error accounted.

公式1就是优化方程。首先字母c表示待剪枝的feature map的通道数，待剪枝的feature map也就是该卷积层的输入feature map；W表示卷积核，维度是n*c*kh*kw，因此n就是输出feature map的通道数；X表示从输入feature map中取出的N个维度为c*kh*kw的samples。因此当卷积核W去卷积X时，得到的就是N*n大小的输出Y，这里要解释下N*n的含义，其实是输出n个feature map，每个feature map的长*宽等于N，因此这里相当于把二维的feature map拉直成一个向量，这样Y就是二维的，方便公式1中计算平方。β是一个向量，里面的值只有0或者1，当要丢掉某个channel的时候，β的对应位置就是0. || ||F是F范数。c’表示剪枝后feature map的通道数，因此最终要达到的目的是将通道数从c剪到c‘。

所以公式1的意思是：首先β的0范数要小于等于c‘，也就是说β向量中非零值的数量要小于c’。然后最小二乘部分的Y表示未剪枝时的输出feature map；求和部分表示按照β来剪枝后的输出feature map，因此这个优化式子是希望二者之间的差异越小越好，所以采取最小二乘（也就是最小平方）的方法来求β和权重W。

当然，上面的式子是没有办法直接优化求解的，因此有了下面的公式2。公式2是将公式1中对β的约束加到公式中，同时使用L1范数代替原来β的L0范数，因为L0难以优化，而且有数学证明L1范数可以替换L0范数。参数λ用来控制β中非零值的数量，λ越大，β中的非零值越少，这样加速比也越大。另外||Wi||F=1是用来约束W的唯一解。

从前面的介绍可以看出最终这个优化式子要求的是最优的β和W，因此具体优化的时候是迭代进行的：先固定W，求解β，然后固定β，求解W。比如公式3就是固定W（XW用Z表示），求解β的公式。

公式4就是固定β，求解W的公式。

优化中的一个细节是前面公式中的λ是在迭代过程中不断增大的，直到||β||0稳定以后就不增大了。

一旦满足β的约束：

就得到了所需的β和W。当然作者在实验中发现这样迭代操作比较耗时间，因此采取的策略是先不断优化公式3，直到达到上面这个β的约束时再优化公式4一次。

前面介绍的都是对于网络没有分支情况下的通道剪枝，但是现在的ResNet、GoogleNet网络都有多分枝，对于这种网络，文中以ResNet为例也做了分析，如图Figure3。首先，在这个residual block中，除了第一层和最后一层外的其他层都可以采用前面介绍的通道剪枝方式进行剪枝。针对第一层，因为原来其输入feature map的通道数是输出的4倍，因此在剪枝之前先对输入feature map做sample。针对最后一层的通道剪枝，由原来对Y2来优化，改成对Y1-Y1‘+Y2来优化（Y1和Y2表示剪枝之前的输出），Y1’表示前面层剪枝后得到的结果（也就是该residual block的输入，只不过和Y1不同的是该输入是前面层剪枝后得到的结果），否者shortcut部分带来的误差会对结果影响较大。

实验结果：

Figure4是在VGG16网络上对单层做不同的channel selection方式的实验结果对比，用来证明本文的这种channel selection算法的有效性。图例中fist k表示抽取前k个channel作为剪枝后的channel，max response表示选取卷积核权重的绝对值最大的一些channel作为剪枝后的channel。可以看出随着层数的增加，channel pruning的难度也增加，这表明在浅层中存在更多的冗余channel，这也是后面对模型做channel pruning时候对浅层和高层采取不同程度剪枝的依据（浅层剪枝得更加厉害，比如从conv1_x到conv3_x剪枝后剩余的通道数与conv4_x剪枝后剩余的通道数的比例是1:1.5，而conv5_x是不剪枝的，一方面因为conv5_x计算量少，另一方面从实验结果看其冗余率已经很低了）。

Table1是对整个VGG-16网络做通道剪枝的结果，可以看出在2倍加速的时候甚至没有影响到准确率。

Table2是作者在VGG-16网络上将本文的通道剪枝和spatial factorization、channel factorization结合在一起（对应表中的Our 3C）做加速的实验结果对比，可以看出结合不同的加速算法的效果都要优于某一种加速算法。

Table5是作者将加速算法用在object detection算法上的表现，这里是以Faster RCNN为例子。

比如对于ResNet和Xception的通道剪枝的实验结果、train from scratch等。

（1）LASSO regression based channel selection. （2）least square reconstruction.

first k selects the first k channels. 这种方法太简单粗暴了。

max response 也就是选择权值和最大的信道，认为拥有的信息最多。

个人觉得这篇文章的主要贡献在于：相较于原来那种暴力的pruning，利用数学方法优化目标函数，使得pruning前后的输出差异最小，取得了一定效果。

缺点在于：我还是觉得人工加入的限定太多，而且这种方法引入了很多调节参数，调整和优化都麻烦，实用性不强。而且文章开头说不需要retrain，其实还是pruning之后再来finetune一下效果比较好。

最后编辑于：2018.06.25 17:23:07

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,921评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,635评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,393评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,836评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,833评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,685评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,043评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,694评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,671评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,670评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,779评论 1赞 332
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,424评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,027评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,984评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,214评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,108评论 2赞 351
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,517评论 2赞 343

Channel Pruning for Accelerating Very Deep Neural Networks 算法笔记

推荐阅读更多精彩内容