ViT作为Backbone, 用类似BERT的方式进行自监督预训练,通过随机遮盖大部分patch让encoder更好地“理解”图片。
重点以及和BEIT的区别
其实把BERT模型搬到视觉领域,也已经有之前的一篇工作BEIT了。
而且BEIT中也使用了AutoEncoder, 但是和MAE的区别是,这里的AE是作为一个tokenizer使用,而下面的Transformer重现的也是token而不是原图。
除此之外,MAE的最主要的重点还有:
- Encoder只接收可见的(没有被mask掉的)带位置信息的patch,
而mask的位置会送到decoder中,和编码后的可见patch一起用于重建。 - Mask覆盖率高:75%, 这是因为比起文字,图像存在很高程度的信息冗余。而且高覆盖率可以加快训练速度(只用处理25%的patch),同时促使encoder加深对图片的理解。
细节上翻译和解读都很多了,其实这篇论文原文也并不晦涩,就偷懒不写啦。
神经网络模型表现的提升很大程度上依赖于数据, 自监督一个优势在于可以用更低的成本吸收更多的数据。大家对MAE的评论褒贬不一,有人认为这是视觉领域一个全新的范式,也有人认为,这个就是BERT换了一个战场,而且类似的之前也有人写过了。无论如何MAE的结果就是要更好,可以预见的是,有一大波相关论文已经在路上了~