蒸馏学习

知识蒸馏解决的问题

提升模型精度
降低模型时延，压缩网络参数
标签之间的域迁移

基本框架

知识蒸馏采取Teacher-Student模式：将复杂且大的模型作为Teacher，Student模型结构较为简单，用Teacher来辅助Student模型的训练，Student模型去学习Teacher模型的泛化能力。

Teacher模型不上线，真正部署上线进行预测任务的是Student小模型。

知识蒸馏根据迁移的方法不同分为基于目标蒸馏（也称为Soft-target蒸馏或Logits方法蒸馏）和基于特征蒸馏的算法两个大的方向。

目标蒸馏 Logits方法

训练的目标

限定在分类问题下，传统的神经网络训练方法是定义一个损失函数，目标是使预测值尽可能接近于真实值（Hard- target），在知识蒸馏中，是使用大模型softmax层输出的类别概率作为Soft-target的训练过程。

Hard-target：原始数据集标注的 one-shot 标签，除了正标签为 1，其他负标签都是 0。
Soft-target：Teacher模型softmax层输出的类别概率，每个类别都分配了概率，正标签的概率最高。

Teacher模型的作用

知识蒸馏用Teacher模型预测的 Soft-target 来辅助 Hard-target 训练Student模型的方式为什么有效呢？

softmax层的输出，除了正例之外，负标签也带有Teacher模型归纳推理的大量信息，比如某些负标签对应的概率远远大于其他负标签，则代表 Teacher模型在推理时认为该样本与该负标签有一定的相似性。而在传统的训练过程(Hard-target)中，所有负标签都被统一对待。也就是说，知识蒸馏的训练方式使得每个样本给Student模型带来的信息量大于传统的训练方式。

具体方法

几个概念：

logits：经过DNN网络各种非线性变换，在网络最后Softmax层之前，会得到这张图片属于各个类别的大小数值zi。
softmax函数：exp(zi)/sum(exp(z))，指数会增大logits之间的差异，对输出结果进行归一化表示。
带温度系数的softmax函数：exp(zi/T)/sum(exp(z/T))，当T越大，z/T越小，输出的分布越平滑，负标签所携带的信息相当于被放大。

步骤：

训练好Teacher模型；
使用高温度系数产生soft-target；
使用soft-target和hard-target（ground-truth）同时训练Student模型；
Student线上做推理，设置温度系数T=1。

第3步中，损失函数是两个交叉熵的加权和L=aLsoft+bLhard
，之所以要加上hard-target的部分，是因为Teacher模型有错误的概率，需要ground-truth进行纠正。

Lhard权重取较小值时，效果比较好，由于Lsoft贡献的梯度大约为Lhard的1/T^{2，因此在同时使用Soft-target和Hard-target的时候，需要在Lsoft的权重上乘T}2的系数，这样才能保证Soft-target和Hard-target贡献的梯度量基本一致。

温度T参数调整

温度T特点：
原始的softmax函数是T=0时的特例；T越小时，概率分布比原始更“陡峭”，也就是说，当T接近于0时，Softmax 的输出值会接近于 Hard-target；随着T的增加，Softmax 的输出分布越来越平缓，信息熵会越来越大。温度越高，softmax上各个值的分布就越平均，思考极端情况，当T=无穷大时，softmax的值是平均分布的。

当想从负标签中学到一些信息量的时候，温度T应调高一些；
当想减少负标签的干扰的时候，温度T应调低一些。

T的选择和Student模型的大小有关，Student模型参数量比较小的时候，相对比较低的温度就可以了。因为参数量小的模型不能学到所有Teacher模型的知识，所以可以适当忽略掉一些负标签的信息。

在整个知识蒸馏过程中，我们先让温度T升高，然后在测试阶段恢复“低温“，从而将原模型中的知识提取出来，因此将其称为是蒸馏。

特征蒸馏

特征蒸馏.png

作用：将深且宽的网络蒸馏成更深但窄的网络
步骤：
第一阶段：首先选择待蒸馏的中间层（即Teacher的Hint layer和Student的Guided layer），由于两者的输出尺寸可能不同，在Guided layer后另外接一层卷积层，使得输出尺寸与Teacher的Hint layer匹配。接着通过知识蒸馏的方式训练Student网络的Guided layer，使得Student网络的中间层学习到Teacher的Hint layer的输出。
第二阶段：在训练好Guided layer之后，将当前的参数作为网络的初始参数，利用知识蒸馏的方式训练Student网络的所有层参数，使Student学习Teacher的输出。

相关论文

目标蒸馏
Distilling the Knowledge in a Neural Network 》，NIPS，2014。
《Deep Mutual Learning》，CVPR，2018。
《Born Again Neural Networks》，CVPR，2018。
《Distilling Task-Specific Knowledge from BERT into Simple Neural Networks》，2019。

特征蒸馏
《FitNets: Hints for Thin Deep Nets》，ICLR，2015。
《Paying More Attention to Attention: Improving the Performance of Convolutional Neural Networks via Attention Transfer》， ICLR，2017。
《A Gift from Knowledge Distillation: Fast Optimization, Network Minimization and Transfer Learning》，CVPR，2017。
《Learning Efficient Object Detection Models》，NIPS，2017。

参考 https://zhuanlan.zhihu.com/p/353472061

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,098评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,213评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,960评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,519评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,512评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,533评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,914评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,574评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,804评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,563评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,644评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,350评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,933评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,908评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,146评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,847评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,361评论 2赞 342