- ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias
NeurlPS 2021
背景
当前的vision transformer模型往往需要在更大的数据集进行训练,或者需要更长的训练时间。
> 他们将图像建模为一维token序列,这忽略了对图像局部相关性、目标的尺度不变性的建模,影响收敛速度、模型性能Backbone
Transformer
- 自注意力机制:建模长距离依赖
- mha:模拟cnn的多输出通道
- 编码器解码器架构
方法
ViTAE中引入两种模块结构设计,即卷积旁路分支--对图像局部相关性的建模,和多尺度卷积--提取不同尺度物体的特征,对物体的尺度不变性的建模。
对应两种基础模块:
-
reduction cell (RC) 绿 | normal cell (NC) 蓝
同
MHSA Multi-Head Self-Attention、a parallel convolutional module、FFN Feed Forward Layer Norm
异
Pyramid Reduction -金字塔缩减: Dilation Rates -扩张率 atrous convolutions -空洞卷积(将多尺度上下文嵌入到tokens中)