Hinton的Distillation研究了如何利用一个复杂网络来训练简单网络,但是训练出来的简单网络性能只能逼近复杂网络。而这篇文章则提出了一个相反的思路:利用简单网络来帮助训练简单网络,从而提升网络的性能。
Dark knowledge for complex model training
软标签有两个优势:
- 为模型训练提供了更多的有效信息,而不仅仅是绝对的硬标签。
- 软标签模糊了类之间的决策边界,提供了更为平滑的训练,使得训练更加可靠。也就是说,如果能够很好地学习teacher模型的话,那么训练的方差将为0,这使得训练更加有效可靠。
Regularization view
同时利用硬标签和软标签进行预测,可以看成是一种正则化的方法。
Pre-training view
除了上面的正则化方法,我们可以先采用软标签对模型进行训练,然后再利用硬标签进行微调。由于软标签能够提供可靠的训练,所以用来作为初始化。然而,软标签所提供的信息并没有足够的区分度,也就是噪声很大,所以采用硬标签进行微调更为有效。
这种预训练方法有三个优势:
- 是完全的监督学习,更加任务导向。
- 这种方法将整个复杂网络进行预训练,而不需要一层层的进行,更加快速有效。
- 可以用于预训练任何复杂网络,即使是一个像RNN这样的网络。
EXPERIMENTS
从实验结果中可以看到,采用预训练的方法得到的模型更加鲁棒。