【神经网络搜索】Once for all

【GiantPandaCV导语】Once for all是韩松组非常有影响力的工作,其最大的优点是解耦了训练和搜索过程,可以直接从超网中采样出满足一定资源限制的子网,而不需要重新训练。该工作被ICLR20接收。

【神经网络搜索】Once for all0. Info1. Motivation2. Contribution3. Method4. Experiment5. Revisiting6. Reference

0. Info

Title: Once-for-All: Train one Network and Specialize it for Efficient Deployment

Author: 韩松组

Link: https://arxiv.org/pdf/1908.09791v5

Publish: ICLR2020

1. Motivation

传统网络搜索方法往往只能针对某个特定设备或者特定资源限制的平台进行针对性搜索。对于不同的设备,往往需要在该设备上从头训练。这样的方法扩展性很差并且计算代价太大,所以once for all从这个角度出发,希望能做到将训练和搜索过程解耦,从而可以训练一个支持不同架构配置的once-for-all网络(类似超网的概念),通过从once-for-all网络中选择一个子网,就可以在不需要额外训练的情况下得到一个专门的子网络。

  • 不同的硬件平台有着不同的硬件效率限制,比如延迟、功耗

  • 不同的硬件平台的硬件资源差别很大,比如最新的手机和最老的手机。

  • 相同的硬件上,不同的电池条件、工作负载下使用的网络模型也是不同的。

也就是说,网络设计主要受平台的以下几方面约束:

  • 部署的硬件设备不同。

  • 相同硬件设备上不同的部署要求,比如期望的延迟。

2. Contribution

  • 提出了解决以上问题的方法:设计once-for-all网络,可以在不同的网络配置下进行部署。

  • 推理过程使用的模型是once-for-all网络的一部分,可以无需重新训练就能灵活的支持深度、宽度、卷积核大小、分辨率等参数的不同。

  • 提出了渐进式收缩的训练策略来训练once-for-all网络

3. Method

方法部分需要搞清楚两个问题,一个是网络是什么样的?一个是网络是如何训练的?

第一个问题:once-for-all网络长什么样子?

once-for-all网络支持深度、宽度、卷积核大小、图像分辨率四个因素的变化。

  • elastic depth: 代表选择任意深度的网络,每个单元的深度有{2,3,4}三个选项。

  • elastic width: 代表选择任意数量的通道,宽度比例有{3,4,6}三个选项。

  • elastic kernel size: 代表选择任意的卷积核大小,有{3,5,7}三个选项。

  • arbitrary resolution: 代表图像的分辨率是可变的,从128到224,stride=4的分辨率均可。

由于网络包括5个单元,所以候选的子网大概有个不同的子网,并且是在25个不同输入分辨率下进行训练。所有的子网都共享权重,只需要7.7M的参数量。

第二个问题:once-for-all怎样才能同时训练这么多子网络?

由于once-for-all的目标是同时优化所有的子网,所以需要考虑使用新的训练策略。

  • 最简单的想法:不考虑计算代价的情况下,每次梯度的更新都是由全体子网计算得到的。虽然这样最准确,但是可想而知计算代价过高,并不实际。

  • 可行的想法:每次梯度是由一部分子网计算得到的。笔者曾经尝试过这种方法(single path one shot),收敛的速度非常慢,得到的准确率也非常低。这很可能是在训练过程中,由于权重是共享的,梯度在同一个参数的更新上可能带来冲突,减缓了训练的过程,并且达到最终的准确率也不够高。

通过以上分析可以看出,训练超网是非常困难的,需要采用更好的训练策略才能训练得动超网。

本文提出了Progressive Shrinking策略来解决以上问题,如下图所示:

  1. 先训练最大的kernel size, depth , width的网络

  2. 微调网络来支持子网,即将小型的子网加入采样空间中。比如说,当前正在微调kernel size的时候,其他的几个选项depth, width需要维持最大的值。另外,分辨率大小是每个batch随机采样的,类似于yolov3里的训练方法。

  3. 采用了知识蒸馏的方法,让最大的超网来指导子网的学习。

渐进式收缩训练策略

以上策略的特点是:先训练最大的,然后训练小的。这样可以尽可能减小训练小模型的时候对大模型的影响。

下面对照上图详细展开PS策略:

  • 训练整个网络,最大kernel,最宽channel,最深depth

  • 训练可变kernel size, 每次采样一个子网,使用0.96的初始学习率训练125个epoch

  • 训练可变depth,采样两个子网,每次更新收集两者的梯度。第一个stage使用0.08的学习率训练25个epoch;使用0.24的学习率训练125个epoch。

  • 训练可变width,采样四个子网,每次更新收集四个子网梯度。第一个stage使用0.08的学习率训练25个epoch;使用0.24的学习率训练125个epoch。

通过以上描述可以看出来,权重共享的网络优化起来非常复杂,上边的选择的子网个数、学习率的选择、epoch的选择可能背后作者进行了无数次尝试调参,才得到了一个比较好的结果。

  1. Elastic Kernel Size: Kernel Size是如何共享的呢?
卷积核共享

简单来说就是,中心共享+变换矩阵。从直觉上来讲,优化7x7的卷积核以后,再优化中间的5x5卷积核势必会影响原先7x7卷积核的结果,两者在分布和数值上有较大的不同,强制训练会导致性能有较大的下降,所以这就需要引入变换矩阵,具体实现是一个MLP,具体方法是:

  • 不同层使用各自独立的变换矩阵来共享权重。

  • 相同层内部,不同的通道之间共享变换矩阵。

  1. Elastic Depth: 如何优化不同深度的网络呢?
不同的深度优化

深度为2、3、4的时候,按照上图所示,选择前i个层,进行训练和优化。

  1. Elastic Width: 如何优化不同的通道个数?
通道的选择

并没有使用类似slimmable network中那种选取前n个通道的策略,而是选取了一个channel importance进行排序,通道重要性计算方法是L1范数,L1范数越大,代表其重要性比较高,选择重要性最高的前n个通道。

部署阶段的其他技术细节:

  • 搜索子网,满足一定的条件,比如延迟、功率等限制。

  • 预测器:neural-network-twins, 功能是给定一个网络结构,预测其延迟和准确率。 采样了16K个不同架构、不同分辨率的子网,然后再10K的验证数据集上得到他们真实的准确率。【arch, accuracy】可以作为准确率预测器的训练数据集。

  • 构建了一个延迟查找表 latency lookup table来预测不同目标硬件平台的延迟。 预测器训练数据集只需要40GPU Days。

4. Experiment

训练细节

  • 网络搜索空间:MobileNetV3类似的

  • 使用标准的SGD优化器,momentum=0.9 weight decay=3e-5

  • 初始学习率2.6 使用cosine schedule来进行learning rate decay

  • 在32GPU上使用2048的batch size训练了180个epoch

  • 在V100GPU上训练了1200个GPU hours

渐进收缩策略:

渐进收缩策略的有效性

上图展示了使用渐进收缩策略以后带来的性能提升,可以看出,不同的架构配置下,都带来了2-4%的性能提升。

实验结果:

实验结果

once-for-all在ImageNet上训练结果如上表所示,其中可以发现虽然训练代价比较高,但是搜索的代价稳定在40GPU Hours并且取得了相同量级MACs下不错结果。

5. Revisiting

  • 并没有什么突破性的创新点,但是每个点都做得很扎实,在一个不错的motivation下,将故事讲的非常引人入胜。所以会讲故事+扎实的实验结果+(大量的算力) 才得到这个结果。

  • 渐进收缩策略中先训练kernel size,在训练depth,最后训练width的顺序并没有明确指出为何是这样的顺序。

  • 通道的搜索策略笔者把它搬到single path one shot上进行了实验,效果并不理想。

  • 通道搜索策略中once for all计算L1 Norm是根据输入的通道来计算的,有点违背直觉,通常来讲根据输出通道计算更符合直觉一些。这一点可以参考通道剪枝,可能两种方法都是可行的,具体选哪个需要看实验结果。

  • 共享kernel size那部分工作的分析非常好,想到使用一个转移矩阵来适应不同kernel所需要的分布非常符合直觉。

  • 这篇工作代码量非常大,非常的工程化,从文章的实验也能看出里边需要非常强的工程能力,调参能力、才能在顶会上发表。

6. Reference

https://zhuanlan.zhihu.com/p/164695166

https://github.com/mit-han-lab/once-for-all

https://arxiv.org/abs/1908.09791

https://file.lzhu.me/projects/OnceForAll/OFA%20Slides.pdf

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,530评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,403评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,120评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,770评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,758评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,649评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,021评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,675评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,931评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,751评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,410评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,004评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,969评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,042评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,493评论 2 343

推荐阅读更多精彩内容