变换器鲁棒性-5：Intriguing Properties of Vision Transformers

Intriguing Properties of Vision Transformers

★★★★★ NeurIPS'21 (Spotlight)

Authors:Muzammal Naseer,Kanchana Ranasinghe,Salman Khan,Munawar Hayat,Fahad Shahbaz Khan,Ming-Hsuan Yang

https://arxiv.org/abs/2105.10497v3

摘要：视觉Transformers（ViT）在各种机器视觉问题上表现出令人印象深刻的性能。这些模型基于多头自注意机制，可以灵活地处理一系列图像块，对上下文线索进行编码。一个重要的问题是，以给定图块为条件处理图像范围上下文的灵活性如何有助于处理自然图像中的干扰，例如严重遮挡、域移动、空间排列、对抗攻击和自然干扰。我们通过一系列广泛的实验系统地研究了这个问题，包括三个ViT家族，并与高性能卷积神经网络（CNN）进行了比较。我们展示并分析了ViT的以下有趣特性：（a）Transformers对严重遮挡、扰动和域移动具有高度鲁棒性，例如，即使在随机遮挡80%的图像内容后，在ImageNet上仍保持高达60%的top-1精度。（b）对遮挡的鲁棒性能不是由于对局部纹理的偏置，相反，与CNN相比，VIT对纹理的偏置要小得多(The robustness towards occlusions is not due to texture bias, instead we show that ViTs are signifificantly less biased towards local textures, compared to CNNs.)。当适当训练以编码基于形状的特征时，VIT显示出与人类视觉系统相当的形状识别能力，这在以前的文献中是无与伦比的。（c）使用VIT对形状表示进行编码，可以在没有像素级监控的情况下实现精确的语义分割。（d）来自单个ViT模型的现成特征可以组合起来创建一个特征集合，从而在传统和few-shot学习范式中，在一系列分类数据集中实现高准确率。我们发现ViTs的有效特征是通过自注意机制可能产生的灵活和动态的感受野。代码在：https://git.io/Js15X

1 引言

随着视觉Transformers（ViT）吸引了更多的兴趣[1]，研究其学习表征的特征变得非常重要。具体而言，从安全关键应用的角度，如自动驾驶汽车、机器人和医疗保健；所学的表示法必须是鲁棒的和可泛化的。在本文中，我们比较了Transformers与卷积神经网络（CNN）在处理不同数据分布的干扰（例如，遮挡、分布移位、对抗性和自然扰动）和泛化方面的性能。我们的深入分析基于三个Transformers系列，ViT[2]、DeiT[3]和T2T[4]，跨越15个视觉数据集。为简洁起见，除非另有说明，否则我们将所有Transformers系列称为ViT。

我们对卷积运算和自注意的基本差异感兴趣，这在稳健性和泛化方面还没有得到广泛的探讨。虽然卷积擅长学习输入域中元素之间的局部交互（例如，边缘和轮廓信息），但自注意已被证明可以有效地学习全局交互（例如，远距离对象部分之间的关系）[5,6]。给定一个查询嵌入，自注意会发现它与序列中其他嵌入的交互作用，从而在建模全局关系的同时对局部内容进行调节[7]。相反，卷积与内容无关，因为相同的滤波器权重应用于所有输入，而不管它们的不同性质。考虑到与内容相关的远程交互建模能力，我们的分析表明VIT可以灵活地调整其感受野，以应对数据中的干扰，并增强表示的表达能力。

我们的系统实验和新颖的设计选择带来了以下有趣的发现：

• 与最先进的CNN相比，VIT对前景物体、非显著背景区域和随机图块位置的严重遮挡具有很强的鲁棒性。例如，在ImageNet[8]val.set上，对于高达80%的显著随机遮挡，DeiT[3]可以保持大约60%的top-1准确度，而CNN的准确度为零。

• 当呈现同一对象的纹理和形状时，CNN模型通常根据纹理做出决策[9]。相比之下，VIT在形状识别方面的表现优于CNN，与人类相当。这突出了VIT处理显著分布变化的鲁棒性，例如，在纹理较少的数据（如绘画）中识别对象形状。

•与CNN相比，VIT对其他干扰因素表现出更好的鲁棒性，如图块排列、对抗性干扰和常见自然腐蚀（例如噪声、模糊、对比度和像素化伪影）。然而，与CNN[10]类似，专注于形状的训练过程使他们容易受到对抗攻击和常见腐蚀。

• 除了具有良好的鲁棒性特性外，ImageNet预训练模型中的现成ViT特性还可以非常好地推广到新的领域，例如few-shot学习、细粒度识别、场景分类和长尾分类设置。除了我们广泛的实验分析和新发现外，我们还介绍了几种新颖的设计选择，以突出VIT的强大潜力。为此，我们建议对DeiT进行架构修改，以通过专用token对形状信息进行编码，该标记演示了如何在同一架构中使用不同标记对看似矛盾的线索进行建模，从而产生有利的影响，如无需像素级监督的自动分割。此外，我们的现成特征转换方法利用从单个架构派生的表示集合，通过预先训练的ViT获得最先进的泛化（图1）。

图1：我们展示了ViT的有趣特性，包括（a）严重遮挡，（b）分布变化（例如，去除纹理线索的风格化），（c）对抗性干扰，以及（d）图块排列。此外，我们的ViT模型训练为关注形状线索，可以在没有任何像素级监控（e）的情况下分割前景。最后，ViT模型的现成特征比CNNs（f）更具普遍性。Figure 1: We show intriguing properties of ViT including impressive robustness to (a) severe occlusions, (b) distributional shifts (e.g., stylization to remove texture cues), (c) adversarial perturbations, and (d) patch permutations. Furthermore, our ViT models trained to focus on shape cues can segment foregrounds without any pixel-level supervision (e). Finally, off-the-shelf features from ViT models generalize better than CNNs (f).

2 相关工作

CNN在独立和同分布（i.i.d）环境中表现出最先进的性能，但对分布变化高度敏感；对抗性噪声[11,12]、常见图像损坏[13]和域偏移（例如，RGB到草图）[14]。人们自然会问，与CNN相比，基于自注意力处理输入的ViT是否有任何优势。Shao等人[15]分析了VIT对对抗性噪声的影响，并表明VIT对高频变化更具鲁棒性。类似地，Bhojanalli等人[16]研究了ViT对空间扰动的影响[15]及其对去除任何单层的鲁棒性。由于ViT处理图像图块，我们重点关注它们对图块屏蔽、局部对抗图块[17]和常见自然腐蚀的鲁棒性。Paul和Chen[18]同时开展的一项工作也对VIT的稳健性提出了类似的见解，但采用了一些不同的实验集。

Geirhos等人[9]提供的证据表明，CNN主要利用纹理来做出决策，而对整体形状的重视程度较低。CNN只使用局部特征的能力进一步证实了这一点[19]。最近，[20]量化了形状和纹理特征之间的互信息[21]。我们的分析表明，大型ViT模型具有较少的纹理偏置，并且相对更强调形状信息。当直接在程式化ImageNet上训练时，ViT的形状偏置接近人类水平的表现[9]。我们的发现与最近的一项同时进行的工作一致，该工作证明了这一趋势对人类行为理解的重要性，并弥合了人类与机器视觉之间的差距[22]。最近的一项研究[23]表明，自监督ViT可以自动分割前景对象。相比之下，我们展示了形状聚焦学习如何在没有任何像素级监控的情况下，在图像级监控的ViT模型中赋予类似的能力。

Zeiler等人[24]介绍了一种在不同层上可视化CNN特征的方法，并研究了现成特征的性能。本着类似的精神，我们研究了ViT与CNN相比的现成特性的泛化。感受野是网络对远距离依赖性建模能力的一个指标。基于Transformers的模型的感受野覆盖了整个输入空间，这一特性类似于手工制作的功能[25]，但VIT具有更高的表示容量。与CNN相比，这使得ViT能够模拟全局上下文并保留结构信息[26]。这项工作是为了证明在ViTs中灵活的感受野和基于内容的上下文建模对学习特征的鲁棒性和泛化的有效性。

3 视觉Transformers的有趣特性

3.1 视觉Transformers是否对遮挡具有鲁棒性？

ViT的感受野横跨整个图像，它利用自注意来模拟图像块序列之间的相互作用[26,27]。我们研究VIT在遮挡场景中是否表现良好，在遮挡场景中，部分或大部分图像内容缺失。

遮挡建模： 考虑网络 $f$ ，它处理输入图像 $x$ 来预测标签 $y$ ，其中X被表示为具有N个元素的图块序列，即 $x= {\left\{ x_{i} \right\}}_{i=1}^N$ [2]。虽然可以有多种方法来定义遮挡，但我们采用了一种简单的遮罩策略，即选择总图像图块的子集M<N，并将这些图块的像素值设置为零，以创建遮挡图像 $x’$ 。我们将这种方法称为PatchDrop。目标是观察使 ${f(x’)}_{argmax} =y$ 的鲁棒性。我们用三种不同的遮挡方法进行了实验，（a）随机PatchDrop，（b）显著（前景）PatchDrop，（c）非显著（背景）PatchDrop。

图2：示例图像及其遮挡版本（随机、显著和不显著）。被遮挡的图像由Deit-S[3]正确分类，但被ResNet50错误分类[28]。遮挡（黑色）区域中的像素值设置为零。 Figure 2: An example image with its occluded versions (Random, Salient and NonSalient). The occluded images are correctly classified by Deit-S [3] but misclassified by ResNet50 [28]. Pixel values in occluded (black) regions are set to zero.

随机PatchDrop： 随机选择并丢弃M个图块的子集（图2）。几个最新的视觉Transformers[2,3,4]将图像分成196块，属于14x14空间网格；即将224×224×3大小的图像分割为196个斑块，每个斑块的大小为16×16×3。例如，从输入中删除100个这样的图块相当于丢失51%的图像内容。

显著（前景）PatchDrop： 并非所有像素对视觉任务都具有相同的重要性。因此，研究VIT对高度显著区域闭塞的鲁棒性非常重要。我们利用自监督ViT模型DINO[23]，该模型可有效分割显著对象。特别地，利用流入最后一个注意块内的最终特征向量（类标记）的信息的空间位置来定位显著像素。这允许通过阈值化注意流的数量来控制在所选像素内捕获的显著信息量。

我们选择包含前景信息顶部Q%的图块子集（对于固定Q为确定性）并删除它们。注意，该Q%并不总是对应于像素百分比，例如，图像的50%前景信息可能仅包含在其像素的10%内。

非显著（背景）PatchDrop：使用与上述相同的方法，使用[23]选择图像中最不显著的区域。包含最低Q%前景信息的图块被选中并放在这里。注意，这并不总是对应于像素百分比，例如，80%的像素可能仅包含图像的20%的非显著信息。

Transformers抗遮挡性能的鲁棒性：我们考虑在IMANET中预先训练的视觉识别任务〔2〕。在验证集（50k图像）上研究遮挡的影响。我们将信息丢失（IL）定义为丢弃的图块与总图块的比率（M/N）。改变IL，以获得每个PatchDrop方法的一系列遮挡程度。图3中报告的结果（Top-1%）显示了ViT模型对CNN的显著稳健性能。在随机图块丢弃的情况下，我们报告了5次运行的平均准确度。对于显著性和非显著性Patchdrop，由于遮挡是确定性的，因此我们报告单次运行的精度值。当50%的图像信息被随机丢弃时，CNN的性能很差。例如，与DeiT-S（2200万个参数）相比，ResNet50（2300万个参数）达到了0.1%的精度，而DeiT-S（2200万个参数）在删除50%的图像内容时获得了70%的精度。可以观察到一个极端的例子，当90%的图像信息被随机屏蔽，但Deit-B仍显示37%的准确度。这一发现在不同的ViT架构中是一致的[2,3,4]。类似地，VIT对前景（显著）和背景（非显著）内容移除表现出显著的鲁棒性。有关稳健性分析的进一步结果，请参见附录A、B、C、D、E。

图3：在三种PatchDrop设置下研究了图像中对象遮挡的鲁棒性（见第3.1节）。（左）我们研究CNN模型对遮挡的鲁棒性，并将ResNet50确定为强基线。（左中）我们将DeiT模型系列与ResNet50进行了比较，ResNet50显示了其对对象遮挡的优越鲁棒性。（右中）与ViT系列的比较。（右）与T2T系列的比较。Figure 3: Robustness against object occlusion in images is studied under three PatchDrop settings (see Sec 3.1). (left) We study the robustness of CNN models to occlusions, and identify ResNet50 as a strong baseline. (mid-left) We compare the DeiT model family against ResNet50 exhibiting their superior robustness to object occlusion. (mid-right) Comparison against ViT model family. (right) Comparison against T2T model family.

对于信息损失，ViT表示是鲁棒的

为了更好地理解针对这种遮挡的模型行为，我们可视化了来自不同层的每个头部的注意力（图4）。虽然初始层涉及所有区域，但较深的层往往更关注图像非遮挡区域中的剩余信息。然后，我们研究从初始层到更深层的这种变化是否会导致对遮挡的标记不变性(token invariance)，这对于分类很重要。我们测量原始图像和被遮挡图像的特征/标记之间的相关系数：

$corr(u,v)=\frac{\sum\nolimits_{i}\hat{u} _{i} \hat{v} _{i} }{n}$

其中 $\hat{u} _{i}=\frac{u_{i}-E[u_{i}]}{\sigma (u_{i} )}$ ， $E[\cdot ]$ 和 $\sigma (\cdot )$ 是均值和标准差运算[29]。在我们的案例中，随机变量 $u$ 和 $v$ 指的是定义在整个ImageNet验证集上的原始图像和遮挡图像的特征图。对于ResNet50，我们考虑在logit层之前的特征；对于ViT模型，从最后个transformer块中提取类tokens。与ResNet50特征相比，transformers中的类tokens更加鲁棒，并且不会遭受太多的信息损失的影响（表1）。此外，我们还可视化了ImageNet层次结构中12个选定超类的相关系数，并注意到这种趋势在不同的类类型中保持不变，即使是相对较小的对象类型，如昆虫、食物和鸟类（图5）。特征可视化见附录F。定性结果见附录G。

图4:ImageNet预训练DeiT-B模型多层中与每个头部相关的注意力图（整个ImageNet值集的平均值）。所有图像都使用相同的遮罩（右下角）进行遮挡（随机拼接）。观察后一层如何清晰地关注图像的非遮挡区域以做出决定，这是模型高度动态感受野的证据。 Figure 4: Attention maps (averaged over the entire ImageNet val. set) relevant to each head in multiple layers of an ImageNet pre-trained DeiT-B model. All images are occluded (Random PatchDrop) with the same mask (bottom right). Observe how later layers clearly attend to non-occluded regions of images to make a decision, an evidence of the model’s highly dynamic receptive field.

表1：原始图像和被遮挡图像的相关系数b/w特征/最终类token，用于随机PatchDrop。整个ImageNet值集的平均值。Table 1: Correlation coefficient b/w features/final class tokens of original and occluded images for Random PatchDrop. Averaged across the ImageNet val. set.

图5：50%随机下降的原始图像和遮挡图像的相关黑白特征/最终token。每个超类的结果是跨类的平均值。Figure 5: Correlation b/w features/final tokens of original and occluded images for 50% Random Drop. Results are averaged across classes for each superclass.

鉴于Transformers模型因动态感受野和学习标记的可辨别性保持行为而具有耐人寻味的鲁棒性，接下来的问题是VIT中的学习表示是否偏向纹理。当对象的空间结构部分丢失时，可以期望仅聚焦于纹理的有偏模型仍然表现良好。

（原文：Given the intriguing robustness of transformer models due to dynamic receptive fifields and discriminability preserving behaviour of the learned tokens, an ensuing question is whether the learned representations in ViTs are biased towards texture or not. One can expect a biased model focusing only on texture to still perform well when the spatial structure for an object is partially lost.）

3.2 形状与纹理：Transformer能否对这两种特性建模？

Geirhos等人[9]研究了形状与纹理假说，并提出了一个训练框架，以增强CNN中的形状偏置。我们首先进行了类似的分析，结果表明，ViT模型的形状偏置比CNN大得多，与人类视觉系统识别形状的能力相当。然而，这种方式会导致自然图像的准确度显著下降。为了解决这个问题，我们在transformer架构中引入了一个shape token，它学习如何关注形状，从而使用一组不同的tokens在同一架构中对形状和纹理相关的特征进行建模。因此，我们从具有高形状偏差的预训练CNN模型中提取形状信息[9]。与原始ViT模型相比，我们的蒸馏方法在高分类精度和强形状偏差之间进行了平衡权衡。

我们在下面概述这两种方法。请注意，[9]中介绍的度量用于量化ViT模型中的形状偏置，并与CNN模型进行比较。

无局部纹理的训练：

在这种方法中，我们首先通过创建一个名为SIN的风格化版本的ImageNet[9]，从训练数据中移除局部纹理线索。然后，我们在此数据集上训练DeiT模型[3]的tiny和small版本。通常，VIT在训练期间使用大量数据扩充[3]。然而，使用SIN学习是一项困难的任务，因为纹理细节较少，并且对样式化样本应用进一步的增强会扭曲形状信息并使训练不稳定。因此，我们在SIN上训练模型，而不应用任何增广、标签平滑或mix up。

我们注意到，与类似容量的CNN模型相比，在ImageNet上训练的VIT表现出更高的形状偏置，例如，DeiT-S（2200万个参数）比ResNet50（2300万个参数）表现更好（图6，右图）。相反，SIN训练的VIT始终比CNN表现更好。有趣的是，DeiT-S[3]在接受SIN训练时达到了人类水平的表现（图6，左图）。

图6左图

图6右图图6：形状偏置分析：形状偏置定义为基于对象形状的正确决策的分数。（左）图显示了CNN、ViT和人类在不同对象类中的形状-纹理权衡。（右）类别平均形状偏置比较。总的来说，VIT的表现比CNN好。在程式化ImageNet（SIN）上训练时，形状偏置显著增加。 Figure 6: Shape-bias Analysis: Shape-bias is defined as the fraction of correct decisions based on object shape. (Left) Plot shows shape-texture tradeoff for CNN, ViT and Humans across different object classes. (Right) classmean shape-bias comparison. Overall, ViTs perform better than CNN. The shape bias increases significantly when trained on stylized ImageNet (SIN).

形状蒸馏： 知识蒸馏允许将大型教师模型压缩为小型学生模型[29]，因为教师通过软标签为学生提供指导。我们引入了一个新的形状标记，并采用注意蒸馏[3]从SIN数据集上训练的CNN（ResNet50 SIN[9]）中提取形状知识。我们观察到，ViT特征本质上是动态的，可以由辅助token控制，以关注所需的特征。这意味着单个ViT模型可以使用单独的标记同时显示高形状和纹理偏差（表3）。当引入形状标记时，我们在分类和形状偏差度量方面实现了更平衡的性能（图7）。为了证明这些不同的标记（用于分类和形状）确实建模了不同的特征，我们计算了我们提取的模型DeiT-T-SIN和DeiT-S-SIN的类和形状标记之间的余弦相似性（在ImageNet val.set上平均），结果分别为0.35和0.68。这明显低于类别和蒸馏标记之间的相似性[3]；DeiT-T和DeiT-S分别为0.96和0.94。这证实了我们的假设，即在ViTs中使用单独的标记对不同的特征进行建模，这是CNN无法直接实现的独特功能。此外，正如我们接下来解释的，它还提供了其他好处。

表3:SIN培训模型的性能比较。ViT生成可由辅助token控制的动态特性。”cls'表示类token。在蒸馏过程中，cls和形状token使用与[3]相同的特征聚合到截然不同的解决方案。Table 3: Performance comparison of models trained on SIN. ViT produces dynamic features that can be controlled by auxiliary tokens. ‘cls’ represents the class token. During distillation cls and shape tokens converged to vastly different solution using the same features as compared to [3].

图7：形状蒸馏

形状偏差ViT提供自动对象分割： 有趣的是，没有局部纹理或形状提取的训练允许ViT集中于场景中的前景对象，而忽略背景（表4，图8）。这为图像提供了自动语义分割，尽管该模型从未见过像素级对象标签。也就是说，形状偏差可以用作ViT模型的自监督信号，以学习不同的形状相关特征，帮助定位正确的前景对象。我们注意到，未强调形状的ViT训练效果不佳（表4）。

表4：我们计算了PASCAL-VOC12验证集上ViT模型的注意图（类似于[23]，阈值为0.9）生成的真值和遮罩之间的Jaccard相似性。仅类级别的ImageNet标签用于训练这些模型。我们的结果表明，有监督的VIT可以用于自动分割，其性能更接近于自监督方法DINO[23]。Table 4: We compute the Jaccard similarity between ground truth and masks generated from the attention maps of ViT models (similar to [23] with threshold 0.9) over the PASCAL-VOC12 validation set. Only class level ImageNet labels are used for training these models. Our results indicate that supervised ViTs can be used for automated segmentation and perform closer to the self-supervised method DINO [23].

图8:ViTs的分割图。形状蒸馏的性能优于标准的监督模型。

上述结果表明，经过适当训练的ViT模型提供的形状偏置几乎与人类识别形状的能力一样高。这让我们怀疑位置编码是否是帮助VIT在严重遮挡情况下实现高性能的关键（因为它可能允许后续层在给定空间顺序的情况下仅使用几个图像块恢复丢失的信息）。下一步将研究这种可能性。

3.3 位置编码是否保留全局图像上下文？

Transformers使用自注意[27]（而不是RNN[30]中的顺序设计）并行处理长程序列的能力对序列顺序是不变的。对于图像，图块的顺序表示了整体图像结构和全局合成。由于VIT对一系列图像块进行操作，因此改变序列顺序（例如，shuffle）可能会破坏图像结构。当前的VIT[2,3,4,26]使用位置编码来保存此上下文。在这里，我们分析通过位置编码建模的序列顺序是否允许ViT在遮挡处理下表现出色。我们的分析表明，Transformers对图块位置具有高度的置换不变性，并且位置编码对向ViT模型注入图像结构信息的影响是有限的（图10）。这一观察结果与下文所述的语言领域[31]的研究结果一致。

图9：用于消除图像结构信息的shuffle操作示例。（最佳浏览放大）

图10：在196个图像块上训练的模型。shuffle时设置的ImageNet val上的Top-1（%）精度。请注意，当shuffle网格大小等于训练期间使用的原始图块数时，性能会达到峰值，因为它只等于更改输入图块的位置（而不干扰图块内容）。Figure 10: Models trained on 196 image patches. Top-1 (%) accuracy over ImageNet val. set when patches are shuffled. Note the performance peaks when shuffle grid size is equal to the original number of patches used during training, since it equals to only changing the position of input patch (and not disturbing the patch content).

对空间结构的敏感性：

如图9所示，我们通过在输入图像块上定义shuffle操作来移除图像内的结构信息（空间关系）。图10显示，当输入图像的空间结构受到干扰时，DeiT模型[3]比CNN模型保持的精度更好。这也表明位置编码对于正确的分类决策并非绝对重要，并且该模型不会使用位置编码中保存的序列信息“恢复”全局图像上下文。在没有编码的情况下，ViT的性能相当好，并且实现了比使用位置编码的ViT更好的置换不变性（图10）。最后，当ViT训练过程中改变图块大小时，排列不变性特性也会随着unshufflfled自然图像的精度而降低（图11）。总的来说，我们将VIT的排列不变性性能归因于其动态感受野，该感受野依赖于输入图块，并且可以通过其他序列元素调整注意力，从而适度地洗牌这些元素不会显著降低性能。(Finally, when the patch size is varied during ViT training, the permutation invariance property is also degraded along with the accuracy on unshufflfled natural images (Fig. 11).Overall, we attribute the permutation invariance performance of ViTs to their dynamic receptive fifield that depends on the input patch and can adjust attention with the other sequence elements such that moderately shufflfling the elements does not degrade the performance signifificantly.)

图11:DeiT-T[3]在不同数量的图像块上训练。减少图块大小会降低总体性能，但也会增加对随机网格大小的敏感性。 Figure 11: DeiT-T [3] trained on different number of image patches. Reducing patch size decreases the overall performance but also increases sensitivity to shuffle grid size.

上述分析表明，就像纹理偏置假设不适用于VIT一样，依赖位置编码在遮挡下表现良好也是不正确的。这使我们得出结论，ViTs的鲁棒性是由于其灵活和动态的感受野（见图4），该感受野取决于输入图像的内容。现在，我们进一步深入研究ViT的鲁棒性，并研究其在对抗性干扰和常见损坏下的性能。

3.4 视觉Transformers对对抗性干扰和自然干扰的鲁棒性

在分析VIT编码形状信息的能力（第3.2节）后，接下来的一个问题是：较高的形状偏差是否有助于实现更好的鲁棒性？在表4中，我们通过计算各种合成常见腐蚀（如雨、雾、雪和噪声）的平均腐蚀误差（mCE）[13]来研究这一点。具有与CNN相似参数的ViT（例如，DeiT-S）比经过增强训练的ResNet50（Augmix[32]）对图像损坏更具鲁棒性。有趣的是，未在ImageNet或SIN上进行增强训练的CNN和VIT更容易受到腐蚀。这些发现与[10]相一致，并表明增强提高了对常见腐败的鲁棒性。

表4：常见损坏的平均损坏误差（mCE）[13]（越低越好）。虽然与CNN相比，VIT具有更好的鲁棒性，但实现更高形状偏置的训练使CNN和VIT更容易受到自然分布变化的影响。与未在ImageNet或SIN上进行增强训练的模型相比，所有经过增强训练的模型（ViT或CNN）的mCE较低。Table 4: mean Corruption Error (mCE) across common corruptions [13] (lower the better). While ViTs have better robustness compared to CNNs, training to achieve a higher shape-bias makes both CNNs and ViTs more vulnerable to natural distribution shifts. All models trained with augmentations (ViT or CNN) have lower mCE in comparison to models trained without augmentations on ImageNet or SIN.

我们观察到对抗性图块攻击的类似性能[17]。ViTs在白盒设置（完全了解模型参数）下对无目标、通用对抗性图块显示出比CNN更高的鲁棒性。在SIN上训练的VIT和CNN比在ImageNet上训练的模型（图12和图13）更容易受到敌对攻击，这是由于形状偏差与鲁棒性的权衡[10]。

图12 图12：对抗性图块攻击的鲁棒性。即使参数较少，VIT也比CNN具有更高的鲁棒性。在ImageNet上训练的模型比在SIN上训练的模型更健壮。结果在ImageNet val.set上的五次图块攻击中取平均值。 Figure 12: Robustness against adversarial patch attack. ViTs even with less parameters exhibit a higher robustness than CNN. Models trained on ImageNet are more robust than the ones trained on SIN. Results are averaged across five runs of patch attack over ImageNet val. set.

图13 ：针对特定样本攻击的鲁棒性，包括单步FGSM[34]和多步PGD[35]。即使参数较少，VIT也比CNN具有更高的鲁棒性。PGD仅运行了5次迭代。攻击根据l进行评估∞ norm和ϵ表示输入图像中每个像素改变的扰动预算。结果通过ImageNet val.集合报告。Figure 13: Robustness against sample specific attacks including single step, FGSM [34], and multi-step, PGD [35]. ViTs even with less parameters exhibit a higher robustness than CNN. PGD ran for 5 iterations only. Attacks are evaluated under l∞ norm and ϵ represents the perturbation budget by which each pixel is changed in the input image. Results are reported over the ImageNet val. set.

鉴于ViT强大的鲁棒性，以及其在形状偏置、自动分割和灵活感受野方面的表现能力，我们分析了其作为现成特征提取器的效用，以取代CNN作为默认特征提取机制[33]。

3.5 Vision Transformer的 Off-the-shelf Tokens

ViT模型的一个独特特征是，模型内的每个块生成一个类别token，可由分类头单独处理（图14）。这允许我们测量ImageNet预训练ViT的每个单独块的辨别能力，如图15所示。由更深的块生成的类token更具区分性，我们使用这一洞察来确认其token具有最佳下游可迁移性的块的有效集合。

图14：单个ViT模型可以提供特征集合，因为来自每个块的类token可以由分类器独立处理。这使我们能够识别对迁移学习有用的最具辨别力的token。Figure 14: A single ViT model can provide a features ensemble since class token from each block can be processed by the classifier independently. This allows us to identify the most discriminative tokens useful for transfer learning.

图15:ImageNet val的Top-1（%），为每个ViT块生成的类token设置。来自最后几层的类token表现出最高的性能，指示最具辨别力的token。 Figure 15: Top-1 (%) for ImageNet val. set for class tokens produced by each ViT block. Class tokens from the last few layers exhibit highest performance indicating the most discriminative tokens.

迁移方法： 如图15所示，我们分析了DeiT模型的分块分类精度，并确定在最后几个块的类标记中捕获了鉴别信息。因此，如表5所示，我们使用DeiT-S[3]对细粒度分类数据集（CUB[34]）上的现成迁移学习进行了消融研究。在这里，我们连接来自不同块的类标记（可选地与平均图块标记组合），并训练一个线性分类器将特征迁移到下游任务。请注意，通过沿图块维度平均生成图块标记。将来自最后四个块的类标记串联在一起的方案显示了最佳的迁移学习性能。我们将这种迁移方法称为DeiT-S（集成）。将所有块中的类标记和平均图块标记串联在一起，有助于实现与最后四个块中的标记类似的性能，但需要非常大的参数来训练。我们在更广泛的任务范围内使用DeiT-S（集成）进行进一步的实验，以验证我们的假设。通过使用logit层之前的特征，我们进一步与预先训练的ResNet50基线进行比较。

表5：使用ImageNet预训练DeiT-S对三个数据集进行的现成特征转移烧蚀研究[3]。线性分类器仅在不同块上的类token串联或类token与平均图块token的组合上学习。我们注意到，来自块9-12的类token最具辨别力（图15），并且在Top-1（%）精度方面具有最高的可转移性。Table 5: Ablative Study for off-the-shelf feature transfer on three datasets using ImageNet pretrained DeiT-S [3]. A linear classifier is learned on only a concatenation of class tokens or the combination of class and averaged patch tokens at various blocks. We note class token from blocks 9-12 are most discriminative (Fig. 15) and have the highest transferability in terms of Top-1 (%) accuracy.

视觉分类：

我们分析了现有特征在多个数据集中的可迁移性，包括飞机[35]、CUB[34]、DTD[36]、GTSRB[37]、真菌[38]、地点365[39]和不自然列表[40]。这些数据集分别用于100、200、47、43、1394、365和1010类的细粒度识别、纹理分类、交通标志识别、物种分类和场景识别。我们在每个数据集的序列分割上，在提取的特征的基础上训练一个线性分类器，并评估其各自测试分割的性能。与CNN基线相比，ViT特征显示出明显的改善（图16）。我们注意到，DeiT-T需要的参数比ResNet50少5倍，在所有数据集中表现更好。此外，采用所提出的集成策略的模型在所有数据集上都取得了最佳结果。

图16 左

图16右图16：现成的ViT功能迁移优于CNN。我们使用泛型分类和域外任务的少镜头分类来探索学习表示的可转移性。在分类的情况下（左），ImageNet预先训练的VIT在任务之间的迁移比CNN对应的VIT更好。在Few shot学习的情况下（右），ImageNet预先训练的VIT平均表现更好。 Figure 16: Off-the-shelf ViT features transfer better than CNNs. We explore transferability of learned representations using generic classification as well as few-shot classification for out-of-domain tasks. In the case of classification (left), the ImageNet pre-trained ViTs transfer better than their CNN counterparts across tasks. In the case of few-shot learning (right), ImageNet pre-trained ViTs perform better on average.

Few-shot学习： 我们认为元数据集（45）设计为一个大规模的Few-Shot Learning（FSL）基准，包含来自多个域的不同数据集。这包括字母表、手绘草图、纹理图像和细粒度类，使其成为一个具有挑战性的数据集，同时涉及到域自适应需求。我们遵循ImageNet培训和所有其他数据集测试的标准设置，这些数据集被视为下游任务。

在我们的实验中，我们在ImageNet数据集上使用预先训练好的分类网络来提取特征。对于每个下游数据集，在FSL设置下，标记图像的支持集可用于每个测试查询。我们使用提取的特征在每个查询的支持集上学习线性分类器（类似于[46]），并使用[45]中定义的标准FSL协议进行评估。该评估涉及针对每个下游数据集的不同数量的放炮。平均而言，与CNN基线相比，ViT特征在这些不同领域的迁移更好（图16）。此外，我们注意到，使用所提出的集成策略进一步提高了ViT的传输性能。我们还强调了QuickDraw（一个包含手绘草图的数据集）的改进，该数据集与我们关于改进ViT模型与CNN模型形状偏差的研究结果一致（详细讨论见第3.2节）。

4 讨论和结论

在本文中，我们从鲁棒性和可推广性的角度分析了ViTs的有趣特性。我们在15个视觉数据集上使用各种ViT模型进行测试。所有型号均在4个V100 GPU上进行训练。我们证明了ViTs相对于CNN在遮挡处理、对分布偏移和图块置换的鲁棒性、无像素监督的自动分割以及对对抗图块和常见损坏的鲁棒性方面的优势。此外，我们还通过从单个ViT模型提出的特征集成，展示了现成ViT特征到多个下游任务的强可迁移性。一个有趣的未来研究方向是探索如何有效地组合使用单独token在单个ViT中建模的各种线索，以相互补充。

我们目前的实验是基于ImageNet（ILSVRC'12）预先训练的VIT，这有可能在学习的表示中反映潜在的偏差。数据大多是西方的，编码了一些性别/种族刻板印象，某些群体的代表性不足[43]。这个版本的ImageNet也带来了隐私风险，因为它没有被蒙蔽的人脸。将来，我们将使用最新的ImageNet版本来解决上述问题[44]。

附录

随机图块丢弃：图块大小的影响

如图17所示，我们扩展了我们的随机 PatchDrop实验，以包括掩蔽操作的不同 PatchDrop大小。主要论文中的PatchDrop实验涉及将图像分割成14×14网格（获得196块尺寸为16×16像素的图块）。在这里，我们将图像分割为不同的网格大小，并通过相关的网格大小定义每个实验。这些实验的结果如图18所示。所有精度值均在ImageNet val集合中报告。由于每个网格大小包含不同数量的图块，我们在精度图中遮挡特定百分比并插值到相同比例，以便更好地进行比较。

我们注意到，当被遮挡图块的尺寸是模型图块大小的倍数（使用的网格大小是原始网格大小的一个因子）时，ViT模型（将输入图像分割为一系列图块进行处理）对图块遮挡的鲁棒性显著提高。这在7×7网格PatchDrop实验中ViT的更高性能中可见（最初使用14×14网格）。同时，由于大部分被遮挡（例如，使用4×4的空间网格），ViT模型和CNN之间的性能差异显著减小。我们认为情况确实如此，因为在高掩蔽率下，非常大的图块遮挡可能会消除与特定对象类别相关的所有视觉线索，这使得ViT和CNN模型都很难做出正确的预测。

更重要的是，我们注意到在Sec3.1中观察到的趋势。通过不同网格大小的实验，再次确认了关于遮挡的信息。我们还注意到，其中一些网格大小（例如8×8）与原始ViT模型（将图像分割为14×14图块序列）使用的网格模式无关。这表明，虽然这些趋势在匹配网格大小（与ViT模型相同）及其因素方面更为显著，但观察到的趋势并非仅由于ViT模型的网格操作而产生。我们注意到，由于VIT的动态感受野，这种行为是可能的。

图17：PatchDrop实验中不同网格大小（导致不同的图块大小）的可视化。 Figure 17: Visualization of varying grid sizes (resulting in different patch sizes) for PatchDrop experiments.

图18：此处，用于遮挡的图块大小与ViT模型使用的图块大小不同（例如，默认为16×16）。请注意，对于较大的图块大小，行为更接近ResNet50，而对于较小的图块大小，ViT模型通常表现更好。Figure 18: Here, the patch sizes used for occlusion are different to the patch size used by ViT models (e.g., 16×16 by default). Note that for larger patch sizes, the behaviour is closer to ResNet50, while for smaller patch sizes, ViT models generally perform better.

A.1 带偏移的随机PatchDrop

我们还探讨了PatchDrop遮罩上的空间偏移如何影响ViT模型。这旨在消除ViT模型的固有网格模式与我们的系列之间可能存在的对齐。在图像上应用相同的遮罩，但具有较小的空间偏移，以确保没有遮罩图块与ViT模型在处理输入图像时使用的任何网格图案对齐。我们重复第节所述的相同实验。在3.1节设置下，将我们的结果显示在图19中。一般来说，我们观察到ViT模型和ResNet模型之间存在类似的趋势，但我们注意到，与无偏移设置下的性能相比，ViT-L的精度显著下降。我们将在下面介绍这种趋势的潜在原因。

图19：我们重复3.1节的实验。通过向用于遮罩图块的网格添加偏移。我们的目标是消除由于与ViT模型使用的图块类型具有相似性的任何网格模式而产生的任何偏置。为此，在PatchDrop实验中，我们消除了掩模和ViT网格模式之间的对齐。我们注意到，在这种情况下，随着ViT-L性能的相对下降，也出现了类似的趋势。Figure 19: We repeat our experiments in Sec. 3.1 by adding an offset to the grid we use for masking patches. We aim to eliminate any biases due to any gird patterns that bear similarity with the kind of patches used by ViT models. To this end, in the PatchDrop experiments we remove alignment between our masks and ViT grid patterns. We note similar trends in this case as well, alongside a relative drop in ViT-L performance.

ViT-L是一个包含超过3亿个可训练参数的大型模型，而其他模型包含的参数明显较少，例如DeiT-B（8600万）、T2T-24（6400万）、TnT-S（2300万）和ResNet50（2500万）。此外，与ViT-L模型不同的是，DeiT家族及其构建者使用广泛的数据扩充方法进行训练，确保使用小数据集对ViT进行稳定训练。在图18中的16×16网格尺寸实验中也观察到ViT-L性能的类似相对下降。在这种情况下，ViT-L的异常行为可能是由于这些差异造成的。

B Random PixelDrop

观察与ViT模型固有网格操作解耦的遮挡效果的进一步步骤是在像素级进行遮挡。如图20所示，我们生成不同遮挡级别的像素级掩模。图21中，我们对的ImageNet val集的评估表明，ViT模型和CNN之间的趋势与之前在3.1节和附录A中观察到的趋势相同。

图20:PixelDrop不同级别的可视化（随机掩蔽像素以研究对遮挡的鲁棒性）。Figure 20: Visualization of varying levels of PixelDrop (randomly masking pixels to study robustness against occlusions).

图21:Random PixelDrop：我们将ViT模型的性能与ResNet50进行了比较，我们的PixelDrop实验展示了类似的趋势。Figure 21: Random PixelDrop: we compare the performance of ViT models against a ResNet50 for our PixelDrop experiments illustrating how similar trends are exhibited.

PixelDrop可以被视为PatchDrop的一个版本，我们使用的网格大小等于图像尺寸（将patch size设置为1×1）。考虑到这一点，我们比较了当我们接近较小网格尺寸的像素下降时，模型的性能如何变化。这如图22所示，在图22中，我们使用不同网格大小的PatchDrop评估ImageNet val集上50%遮挡的模型。

图22：我们比较模型的性能，因为我们改变网格大小，保持遮挡水平一直保持在50%，直到像素下降，我们认为PatchDrop的网格大小相当于图像尺寸。虽然PixelDrop随着遮挡水平的变化向我们展示了类似的趋势（图21），但模型的总体性能会下降。 Figure 22: We compare the performance of models as we vary the grid size keeping the occlusion level constant at 50% all the way until PixelDrop which we consider as PatchDrop with grid size equivalent to the image dimensions. While PixelDrop shows us similar trends as the occlusion level varies (Fig, 21), the general performance of models decreases.

我们注意到，与PatchDrop实验相比，在PixelDrop的情况下，对于这种固定的遮挡级别，模型的整体性能会下降。

我们还注意到，与其他型号相比，ViT-L的性能显著提高。这可归因于其更高的可训练参数计数，如第A.1所讨论的。同时，ViT-L显示16×16网格的性能异常下降，与我们在图19中的观察结果非常相似。

C 对特征丢失的鲁棒性

与我们以前在模型输入空间中涉及遮挡的实验不同，我们现在关注模型特征空间中的遮挡。我们通过在ViT模型中删除部分中间表示来实现这一点，而不是从输入图像中删除图块。对于每个Transformers块（例如，对于DeiT-B中的12个块中的每个块），我们随机屏蔽（设置为零）其输入特征的选定百分比。表6通过评估ImageNet val集的性能研究了这些“特征下降”实验的影响。采用标准方法测量性能（使用ViT模型的最终分类器头部的输出）。我们注意到，对于少量的特征下降（25%和50%），无论单个块的位置如何，模型都会遭受相对类似的性能下降。但是，对于较大数量的特征丢失，某些块对于每个模型来说显得更重要。此外，我们注意到大型模型块内存在一定程度的信息冗余，因为它们的性能下降并不显著，即使是相当数量的特征下降（例如，ViT-L为25%）。

表6：病变研究：我们将输入到所选ViT模型的每个模块的特征的百分比降低，并根据ImageNet val集的Top-1精度（%）评估其性能。ViT-L对这种特性下降表现出显著的鲁棒性，甚至高达25%的token暗示模型中存在信息冗余。Table 6: Lesion Study: we drop a percentage of features input to each block of selected ViT models and evaluate their performance in terms of Top-1 accuracy (%) on ImageNet val set. ViT-L shows significant robustness against such feature drop even up to the 25% mark hinting towards information redundancy within the model.

在表7中，我们对ResNet50模型进行了相同的特征丢弃实验。我们注意到ResNet架构与ViT模型完全不同；因此，比较这些值将没有什么意义。在ResNet50的案例中，我们观察到早期层中的功能下降如何导致性能显著下降，这与ViT模型不同。此外，最后一层中的功能下降显示性能下降几乎可以忽略不计，这可能是由于接着处理这些特征的平均池化操作造成的。在比较ViT模型的情况下，最后一层中的图块token不用于最终预测，因此对其应用特征丢弃对性能没有影响。

表7:ResNet50病变研究：我们对输入到四个剩余块（第1-4层）和最终平均池操作（第5层）之前的特征图的中间特征图进行特征删除。我们在ImageNet值上评估Top-1精度（%）。设置为25%、50%和75%的特征降应用于每个层。Table 7: ResNet50 Lesion Study: we perform feature drop on the intermediate feature maps input to each of the four residual blocks (layers 1-4) and the feature map prior to the final average pooling operation (layer 5). We evaluate Top-1 accuracy (%) on the ImageNet val. set for 25%, 50%, and 75% feature drop applied to each layer.

D 对遮挡的鲁棒性：更多分析

在我们的实验设置中，我们将VIT与类 tokens一起使用，这些类 tokens在整个网络中与 patch tokens交互，并随后用于分类。然而，并非所有ViT设计都使用类 token，例如，Swin Transformer[49]使用所有 tokens的平均值。为此，我们使用三种最新的Swin Transformer[49]对我们提出的遮挡进行了实验（图23）。

D.1 Swin Transformer [49]

图23：在三种PatchDrop设置下研究了图像中对象遮挡的鲁棒性（见第3.1节）。我们将Swin模型族与ResNet50进行了比较，ResNet50显示了其对对象遮挡的优越鲁棒性。这些结果表明，不依赖于使用显式类token（如Swin transformer）[49]的ViT体系结构对信息丢失也具有鲁棒性。Figure 23: Robustness against object occlusion in images is studied under three PatchDrop settings (see Sec 3.1). We compare the Swin model family against ResNet50 exhibiting their superior robustness to object occlusion. These results show that ViT architectures that does not depend on using explicit class token like Swin transformer [49] are robust against information loss as well.

D.2 RegNetY [50]

在这里，我们评估了RegNetY的三种变体与我们提出的遮挡（图24）。与ResNet50相比，RegNetY[50]显示出相对较高的鲁棒性，但总体表现与其他CNN模型类似。

图24：在三种PatchDrop设置下研究了图像中对象遮挡的鲁棒性（见第3.1节）。我们研究了更强的基线CNN模型RegNetY[50]对遮挡的鲁棒性，并确定其总体行为与其他CNN模型相似。Deit-T[3]是一种具有少量参数的ViT，其性能明显优于所有考虑的RegNetY变体。 Figure 24: Robustness against object occlusion in images is studied under three PatchDrop settings (see Sec 3.1). We study the robustness of stronger baseline CNN model, RegNetY [50] to occlusions, and identify that it overall behaves similar to other CNN models. Deit-T [3], a ViT with small number of parameters, performs significantly better than all the considered RegNetY variants.

E 形状偏置模型的行为

在本节中，我们研究了PatchDrop（第3.1节）和置换不变性（第3.3节）实验对在程式化ImageNet[9]（形状偏置模型）上训练的模型的影响。与形状偏向CNN模型相比，VIT模型对PatchDrop表现出良好的鲁棒性。请注意，ResNet50（2500万）和DeiT-S（2200万）具有类似的可训练参数计数，这是一个更好的比较。此外，我们注意到，在“随机shufflfle”实验的情况下，ViT模型显示出与CNN模型类似（或更低）的置换不变性。这些随机shufflfle的结果表明，我们在ViT模型中发现的排列不变性的缺乏。3.3在我们的形状偏差模型中有所克服。

（什么意思？是指附录中实验结论与正文中相悖吗）

（原文：In this section, we study the effect of our PatchDrop (Sec. 3.1) and permutation invariance (Sec. 3.3)experiments on our models trained on Stylized ImageNet [9] (shape biased models). In comparison to a shape biased CNN model, the VIT models showcase favorable robustness to occlusions presented in the form of PatchDrop. Note that ResNet50 (25 million) and DeiT-S (22 million) have similar trainable parameter counts, and therein are a better comparison. Furthermore, we note that in the case of “random shufflfle” experiments, the ViT models display similar (or lower) permutation invariance in comparison to the CNN model. These results on random shufflfle indicate that the lack of permutation invariance we identifified within ViT models in Sec. 3.3 is somewhat overcome in our shape biased models.）

图25：形状偏置模型：我们在程式化ImageNet上训练的DeiT模型上进行相同的PatchDrop和随机shuffle实验[9]，并与在相同数据集上训练的CNN进行比较。所有结果都是在ImageNet值集上计算的。与ResNet50相比，我们强调了DeiT模型在图块投放实验中的性能改进。我们还注意到DeiT模型在随机shuffle时的性能下降与ResNet模型相似。 Figure 25: Shape biased models: We conduct the same PatchDrop and Random Shuffle experiments on DeiT models trained on Stylized ImageNet [9] and compare with a CNN trained on the same dataset. All results are calculated over the ImageNet val. set. We highlight the improved performance in the PatchDrop experiments for the DeiT models in comparsion to ResNet50. We also note how the DeiT models’ performance drop with random shuffling is similar to that of the ResNet model.

F 动态感受野

我们进一步研究了ViT行为，将重点放在信息信号上，而不管其位置如何。在我们的新实验中，在推断过程中，我们将输入图像重新缩放到128x128，并将其放置在224x224大小的黑色背景中。换句话说，我们将所有图像信息反射到几个中，而不是移除或洗牌图像补丁。然后，我们将这些图块的位置移动到背景的右上角/左下角。平均而言，Deit-S显示62.9%的top-1分类准确率和低方差（62.9±0.05）。相比之下，ResNet50的平均准确率仅为5.4%。这些结果表明，无论位置如何，VIT都可以利用鉴别信息（表8）。图26显示了当图像在背景中移动时，描述注意力变化的可视化。

（We further study the ViT behavior to focus on the informative signal regardless of its position. In our new experiment, during inference, we rescale the input image to 128x128 and place it within black background of size 224x224. In other words, rather than removing or shuffling image patches, we reflect all the image information into few patches. We then move the position of these patches to the upper/lower right and left corners of the background. On average, Deit-S shows 62.9% top-1 classification accuracy and low variance (62.9±0.05). In contrast, ResNet50 achieves only 5.4% top-1 average accuracy. These results suggest that ViTs can exploit discriminative information regardless of its position (Table 10). Figure 26 shows visualization depicting the change in attention, as the image is moved within the background. ）

表8：我们将输入图像重新缩放为128x128，并将其放置在224x224大小背景的右上角/左下角。与ResNet50相比，ViTs可以利用区分性信息，而不管其位置如何。报告了ImageNet值集的Top-1（%）精度。 Table 8: We rescale the input image to 128x128 and place it within the upper/lower right and left corners of the background of size 224x224. ViTs can exploit discriminative information regardless of its position as compared to ResNet50. Top-1 (%) accuracy on ImageNet val. set is reported.

图26：当图像在背景中移动时，描绘注意力变化的可视化。在ImageNet预先训练的DeiT-T（微小）模型的所有12层中，与每个头部相关的注意力图（整个ImageNet值集的平均值）[3]。所有图像将重新缩放为128x128，并放置在黑色背景中。观察后一层如何清晰地关注图像的非遮挡区域以做出决定，这是模型高度动态感受野的证据。Figure 26: Visualization depicting the change in attention, as the image is moved within the background. Attention maps (averaged over the entire ImageNet val. set) relevant to each head across all 12 layers of an ImageNet pre-trained DeiT-T (tiny) model [3]. All images are rescaled to 128x128 and placed within black background. Observe how later layers clearly attend to non-occluded regions of images to make a decision, an evidence of the model’s highly dynamic receptive field.

E 其他定性结果

这里，我们展示了一些定性结果，例如，图27展示了我们的遮挡（随机、前景和背景）方法的示例。我们的形状模型分割显著图像的性能如图28所示。在图29中，我们通过可视化信息丢失情况下的注意力，展示了ViT感受野的动态行为。最后，我们展示了为愚弄不同ViT模型而优化的对抗图块（图31）。

图27：我们的三种PatchDrop遮挡策略的可视化：原始、随机（图像的50%w.r.t）、非显著（DINO预测的50%w.r.t）和显著（DINO预测的50%背景）PatchDrop（从左到右显示）。DeiT-B模型在整个ImageNet val.范围内实现了81.7%、75.5%、68.1%和71.3%的准确度，分别适用于从左到右图示的每个遮挡级别 Figure 27: Visualizations for our three PatchDrop occlusion strategies: original, random (50% w.r.t the image), non-salient (50% w.r.t the forground predicted by DINO), and salient (50% of the backgrond as predicted by DINO) PatchDrop (shown from left to right). DeiT-B model achieves accuracies of 81.7%, 75.5%, 68.1%, and 71.3% across the ImageNet val. set for each level of occlusion illustrated from left to right, respectively

图28:DeiT-S模型中使用类token注意的图像自动分割。原始、SIN训练和SIN提取的模型输出分别从上到下进行说明。 Figure 28: Automatic segmentation of images using class-token attention for a DeiT-S model. Original, SIN trained, and SIN distilled model outputs are illustrated from top to bottom, respectively.

图29：不同图像上显著斑点的变化（水平从左到右增加）。 Figure 29: The variation (level increasing from left to right) of Salient PatchDrop on different images.

图30：对抗图块（通用和非目标）可视化。最上面一行显示为愚弄在ImageNet上训练的DeiT-S而优化的对抗图块，而最下面一行显示DeiT-S-SIN的图块。DeiT-S的表现明显优于DeiT-S-SIN。另一方面，DeiT-SIN比DeiT-S具有更高的形状偏置。Figure 30: Adversarial patch (universal and untargeted) visualizations. Top row shows adversarial patches optimized to fool DeiT-S trained on ImageNet, while bottom row shows patches for DeiT-S-SIN. DeiT-S performs significantly better than DeiT-S-SIN. On the other hand, DeiT-SIN has higher shape-bias than DeiT-S.

图31：对抗图块（通用和非目标）优化，从上到下愚弄DeiT-T、DeiT-B和T2T-24模型。这些ViT模型比CNN（如ResNet50）对此类对抗模式更具鲁棒性。 Figure 31: Adversarial patches (universal and untargeted) optimized to fool DeiT-T, DeiT-B, and T2T-24 models from top to bottom. These ViT models are more robust to such adversarial patterns than CNN (e.g., ResNet50).

注：

（1）编者在机翻这篇论文时是基于arxiv上较早的版本，在整理时用的是arixv上v3版本，v3版本相比v1版本的图像/表格/文本/附录/参考文献索引均有所变动。编者在整理时图像、表格根据v3版本做相应补充，但参考文献索引未做改动。因此对参考文献感兴趣的读者建议参见原文。

（2）arixv3的表格排布出现错误：表1，表3，表4，表4，表5，表6...

（3）arxiv3中的附录增加了对SwinTransformer的比较

最后编辑于：2021.12.03 15:17:42

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 199,064评论 5赞 466
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 83,606评论 2赞 376
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 146,011评论 0赞 328
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 53,550评论 1赞 269
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 62,465评论 5赞 359
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 47,919评论 1赞 275
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,428评论 3赞 390
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,075评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,208评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,185评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,191评论 1赞 328
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,914评论 3赞 316
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,482评论 3赞 302
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,585评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,825评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,194评论 2赞 344
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 41,703评论 2赞 339

变换器鲁棒性-5：Intriguing Properties of Vision Transformers

推荐阅读更多精彩内容