变换器鲁棒性-4:Vision Transformers are Robust Learners

https://arxiv.org/pdf/2105.07581.pdf

arXiv:2105.07581[pdf,other]

Vision Transformers are Robust Learners

★★★★★

Authors:Sayak Paul,Pin-Yu Chen

Abstract: Transformers, composed of multiple self-attention layers, hold strong promises toward a generic learning primitive applicable to different data modalities, including the recent breakthroughs in computer vision achieving state-of-the-art (SOTA) standard accuracy with better parameter efficiency. Since self-attention helps a model systematically align different components present inside the input data, it leaves grounds to investigate its performance under model robustness benchmarks. In this work, we study the robustness of the Vision Transformer (ViT) against common corruptions and perturbations, distribution shifts, and natural adversarial examples. We use six different diverse ImageNet datasets concerning robust classification to conduct a comprehensive performance comparison of ViT models and SOTA convolutional neural networks (CNNs), Big-Transfer. Through a series of six systematically designed experiments, we then present analyses that provide both quantitative and qualitative indications to explain why ViTs are indeed more robust learners. For example, with fewer parameters and similar dataset and pre-training combinations, ViT gives a top-1 accuracy of 28.10% on ImageNet-A which is 4.3x higher than a comparable variant of BiT. Our analyses on image masking, Fourier spectrum sensitivity, and spread on discrete cosine energy spectrum reveal intriguing properties of ViT attributing to improved robustness. Code for reproducing our experiments is available here: https://git.io/J3VO0.△ Less

摘要:Transformers由多个自注意力层组成,在适用于不同数据模式的通用学习原语方面具有强大的前景,包括最近在计算机视觉方面取得的突破,以更好的参数效率实现最先进的(SOTA)标准精度。由于自注意力有助于模型系统地对齐输入数据中存在的不同组件,因此它为在模型鲁棒性基准下研究其性能留下了基础。在这项工作中,我们研究了视觉Transformers(ViT)对常见的腐蚀和扰动、分布偏移和自然对抗样本的鲁棒性。我们使用六种不同的关于鲁棒分类的ImageNet数据集,对ViT模型和SOTA卷积神经网络(CNN)进行综合性能比较,即大迁移。通过一系列六个系统设计的实验,我们提出了定量和定性的分析,以解释为什么VIT确实是更鲁棒的学习者。例如,在参数较少、数据集和预训练组合相似的情况下,ViT在ImageNet-a上的最高精度为28.10%,比BiT的可比变体高4.3倍。我们对图像掩蔽、傅里叶光谱灵敏度和离散余弦能谱扩展的分析揭示了ViT的有趣特性,归因于增强了鲁棒性。复制我们的实验的代码可在此处获得:https://git.io/J3VO0.    

1导言

Transformers[3]正成为各种数据模式的首选架构。这主要是因为它们有助于减少设计网络架构时产生的归纳偏置。此外,与通常专用于特定类型数据模式的架构相比,Transformers在不牺牲预测性能的情况下实现了巨大的参数效率。特别是注意力,自注意力力是Transformers的基础之一。它是一种计算原语,允许我们量化成对实体交互,从而帮助网络了解输入数据中存在的层次结构和对齐方式[4,3]。这些都是理想的特性,在很大程度上消除了对精心设计的归纳偏置的需要。

虽然Transformers已被用于以前的工作[ 5, 6 ],直到2020,Transformers的性能与标准的图像识别任务上的SOTA CNNs相当(7, 8, 1)。注意力已被证明是视觉网络实现更好的经验鲁棒性的一个重要因素[9]。由于注意力是VIT(以及一般Transformers)的核心组成部分,因此这里自然提出的一个问题是——VIT是否天生更鲁棒?如果是这样的话,为什么VIT是更鲁棒的学习者?在这项工作中,我们为第一个问题提供了肯定的答案,并提供了实证证据,证明ViTs的鲁棒性有所提高。

最近的各种工作开启了对ViTs鲁棒性评估的研究[10–12],但范围相对有限。在此基础上,我们提供了进一步和更全面的分析,以了解为什么VIT与SOTA CNN(如BiT)相比,在语义转换、常见损坏和干扰以及自然对抗性样本输入图像方面具有更好的鲁棒性[2]。通过一组精心设计的实验,我们首先验证了VIT对常见鲁棒性基准数据集的增强鲁棒性[13,14,9,15]。然后,我们提供定量和定性分析,以帮助理解这一增强背后的原因。总之,我们作出以下贡献:

•我们使用了6个不同的ImageNet数据集进行不同类型的鲁棒性评估,并得出结论,VIT的性能明显优于BiTs。

•我们设计了6个实验,包括掩蔽鲁棒性、能量和损失景观分析,以及对高频伪影的敏感性,以解释VIT鲁棒性的提高。

•我们的分析为ViT的鲁棒性归因提供了新的见解。此外,我们的鲁棒性评估和分析工具是通用的,可用于基准测试和研究未来的图像分类模型。复制我们的实验的代码可以在这里找到:git.io/J3VO0。

2相关工作

据我们所知,[16]首先探索了将Transformers[3]用于图像超分辨率任务[17–19],这本质上属于图像生成的范畴。图像GPT[6]使用Transformers从图像像素进行无监督的预训练。然而,预训练方法的迁移性能与监督预训练方法不一致。ViT[1]采用了原始Transformers,并进行了非常小的更改,使其能够与图像一起工作。事实上,这是ViT的主要目标之一,即保持原始Transformers结构尽可能原始,然后在大规模预训练方面检查其对图像分类的影响。如[1]所述,由于归纳偏置的数量较少,ViT需要在相对较大的数据集(如ImageNet-21k[20])上进行预训练,以实现合理的下游性能。

已经提出了多种变型的Transformers,以表明在不使用额外数据的情况下,可以在ImageNet-1k上实现类似的性能。DeIT[8]引入了一种新的蒸馏策略[21],从基于regnet[22]的性能良好的教师网络学习基于学生Transformers的网络。通过这种方法,DeIT在ImageNet-1k上实现了85.2%的top-1精度,无需任何外部数据。T2T ViT[23]提出了一种新的标记化方法,使网络能够更多地访问图像的局部结构。对于基于Transformers的主干网,它遵循[24]所启发的深窄网络拓扑。通过建议的更改,T2T ViT在ImageNet-1k上实现了83.3%的顶级精度。LV ViT[25]引入了一个新的训练目标,即标记标签,并调整了Transformers的结构。它在ImageNet-1k上实现了85.4%的top-1精度。在这项工作中,我们只关注ViT[1]。

与我们的工作同时,最近有一些工作从不同角度研究了VIT的鲁棒性。在下文中,我们总结了他们的主要见解,并强调了与我们工作的不同之处。[11] 结果表明,ViTs比CNNs对对抗性输入扰动具有更好的鲁棒性。主要性能增益可归因于学习更具普遍性的高频特征的能力,以及卷积层阻碍对抗鲁棒性的发现。[10] 研究了ViTs对Resnet[26]的鲁棒性,以抵抗对抗性和自然对抗性样本以及常见的腐蚀。此外,研究还表明,VIT对几乎任何单层的去除都具有鲁棒性。[12] 通过各种白盒、黑盒和迁移攻击研究了VIT的对抗鲁棒性,发现模型融合可以实现前所未有的鲁棒性,而不会牺牲对抗黑盒对抗的精确性。本文展示了与这些工作根本不同的新见解:(i)我们在广泛的ImageNet数据集(见表2)上对VIT的鲁棒性进行了基准测试,这是迄今为止最全面的鲁棒性性能基准测试;(ii)我们设计了六个新的实验来验证ViTs优于BiT和ResNet模型的鲁棒性。

3 ImageNet数据集的鲁棒性性能比较

3.1准备工作

在本节中,我们将概述ViT。ViT的主要成分如下。

多头自注意力(MHSA)。

ViT模型设计的核心是自注意力[4]。这里,我们首先从线性投影(X)计算三个量∈ RN×D):(i)Query=XWQ,(ii)Key=XWK,(iii)Value=XWV,其中WQ、WK和WV是线性变换。线性投影(X)是从原始输入数据的批次中计算出来的。自注意力接受这三个输入量,并使用(1)返回一个输出矩阵(N×d),该矩阵由注意分数加权:

这种形式的注意力通常也被称为“缩放点积注意力”[3]。自注意力的一个重要方面是,它在输入中的所有元素对之间起作用。总之,单个注意层试图找出如何最好地将键与查询对齐,并以注意分数的形式量化这一发现。然后将这些分数与值相乘,以获得最终输出。为了实现功能丰富的分层学习,将h个自注意力层(或所谓的“头部”)堆叠在一起,产生N×dh的输出。然后,该输出通过线性变换层馈送,该线性变换层从MHSA产生N×d的最终输出。然后,MHSA形成铁芯Transformers块。

Transformers组。

单个Transformers块由MHSA、层规范化(LN)[27]、前馈网络(FFN)和跳连[26]组成。它使用(2)实现:其中`∈ {0,1,…,L}是层索引,L是隐藏层的数量。

FFN由两个线性层组成,它们之间有一个GELU非线性[28]。我们请读者参考[1]中的图1,以了解Transformers块的示意图。接下来,我们将讨论类标记(其学习版本在(2)中表示为z0L)以及如何使用图块编码将图像馈送到Transformers块。

类标记和图像的编码图块。

受BERT[29]的启发,在图像图块之前添加了一个类标记,它贯穿整个ViT。它被初始化为z00,并作为图像块的最终表示,然后迁移给任务头。Transformers只能处理输入序列。考虑N×N形状的图像。如果我们要提取形状为P×P的斑块,那么斑块总数将为(N/P)2(更多详细信息,请参见附录A)。

Transformerser块并行处理这些图块,从而使其对图块的显示顺序保持不变。由于局部性不仅是需要的,而且是必要的,特别是在图像中,可学习的位置编码器用于获得图像块位置的线性投影。这些投影与实际图像图块的线性投影相结合,然后馈送到后续变换块。在[1]中,作者还研究了混合模型,其中图块编码应用于使用CNN计算的特征图。然而,在这项工作中,我们不考虑这些。

3.2用于鲁棒性评估的不同ImageNet数据集的性能比较

在这项工作中,我们的基线是在IMANETET-1K数据集(31)上预训练的RESNET50V2模型[30 ],除了我们考虑RESNET-50(26)2的一些结果之外。为了研究VITS如何与SOTA CNNs保持一致,我们考虑BIT〔2〕。在其核心,位网络是RESNET的放大版本,添加了组标准化[32]和权重标准化[33]层,以代替批量标准化[34]。由于ViT和BiT具有相似的预训练策略(例如使用更大的数据集,如ImageNet-21k[20]和JFT-300[35],更长的预训练时间表,等等),因此它们是我们进行比较的最佳选择。因此,我们工作的核心问题是:

在类似参数、预训练和数据状态下,ViT相对于BiT的鲁棒性如何,以及如何归因于它们的性能差异?

表1报告了在ImageNet-1k数据集上公开的不同ViT和BiT模型的参数计数及其最高精度3[31]。显然,ViT的不同变体能够实现与BiT相当的性能,但参数较少。

在下文中,我们比较了ViT和BiT在六个鲁棒性基准数据集[13,14,9]上的性能,如表2所示。这些数据集从不同角度比较了ViT、BiT和基线ResNet50V2的鲁棒性,包括(i)常见损坏,(ii)语义变化,(iii)自然对抗样本,以及(iv)分布外检测。表2中列出了数据集及其用途的摘要,以便于参考。

值得注意的是,在这些数据集中,ViT的鲁棒性明显优于可比参数计数。第4节给出了ViT中改进鲁棒性的属性分析。

ImageNet-C。

ImageNet-C数据集[13]由15种算法生成的损坏类型组成,每种损坏类型有五个严重级别。除此之外,作者还提供了另外四种类型的一般腐败,总计19起。我们考虑所有19个腐败在其最高严重程度(5),并报告图1中的平均Top-1精度由VIT和BIT的变体所产生。我们始终观察到,在不同参数条件下,ViT的所有变体都有更好的性能。请注意,位m-r50x1和m-r101x1的参数小于ViT(B-16)的最低变体,但对于其他可能的分组,ViT变体的参数小于位。总的来说,我们注意到,除了对比度,ViT在不同的腐蚀中始终表现得更好。在图2中,我们报告了对比度损坏的最高严重级别上ViT和BiT的最高精度。这一观察结果为未来的研究留下了基础,以调查为什么会出现这种情况,因为在现实世界的用例中,不同的对比度因子非常常见。根据我们的发现,对比是研究ViT鲁棒性的一种有效但尚未探索的方法,类似于人类注意机制的研究[36]。

在[13]中,平均损坏误差(mCE)用于量化ImageNet-C数据集上模型的鲁棒性因素。具体而言,针对每种不同的损坏(c)类型(1)计算排名前1的错误率≤ C≤ 15) 对于每种严重程度(1≤ s≤ 5). 当对所有损坏类型重复“所有错误率”,且最终值是不同损坏类型的所有平均错误率的平均值时。最终得分通过AlexNet的mCE标准化[39]。

我们在表3中报告了BiT-m r101x3、ViT L-16和一些其他型号的MCE。如[13]所述,MCE报告了15起腐败事件。由于以下原因,我们在表3中增加了两种额外的模型/方法:(a)有噪声的学生训练[38]使用外部数据和训练选择(如使用RandAugment[40]、随机深度[41]等),这有助于增强视觉模型的鲁棒性,(b)DeepAugment和AugMix[14,37]明确地设计用于提高模型对ImageNet-C中出现的损坏的鲁棒性。因此,为了提供一个公平的基础,以了解BiT和ViT与最先进的技术相比所处的位置,我们添加了这两个模型。值得注意的是,ViT的性能确实优于DeepAugment和AugMix的组合,这两种组合专门设计用于提供针对ImageNet-C中发现的损坏的鲁棒性。正如我们将在第4节中讨论的,这种现象可归因于两个主要因素:(a)使用更大数据集进行更长的预训练,以及(b) 自注意力。还应注意,NoisyStudent训练[38]在训练过程中综合了各种因素,如迭代训练过程、RandAugment的强数据增强转换(用于噪声注入)、测试时间增强等。这些因素在很大程度上有助于提高噪声学生训练所获得的鲁棒性增益。

ImageNet-P。

ImageNet-P数据集[13]有10种常见的干扰。与常见的干扰不同,干扰在图像内的像素数较少的范围内微妙地变化。根据[13]平均翻转率(mFR)和平均前5距离(mT5D)是评估模型在这些扰动下的鲁棒性的标准指标。见表4。由于mFR和mT5D的公式比mCE更为复杂,为简洁起见,我们请读者参考[13]关于这两个指标的更多细节,我们发现ViT对常见扰动的鲁棒性明显优于BiT和AugMix。

ImageNet-R。

ImageNet-R数据集[14]通过收集ImageNet类的格式副本,包含使用ImageNet标签标记的图像。它有助于验证视觉网络在不同域的语义变化下的鲁棒性。图3显示ViT对域自适应的处理优于BiT。

ImageNet-A。

ImageNet-A数据集[9]由导致误分类的自然图像组成。其中一个主要原因是在多类图像分类问题中,具有多个对象的图像与单个离散类别相关联[9]。其他原因包括CNN的纹理偏差[42].在图4中,我们报告了ImageNet-A数据集[9]上ViT和BiT的最高精度。在[9]中,自注意力被认为是解决这些问题的重要因素。这可能有助于解释为什么在这种情况下ViT的性能明显优于BiT。

ImageNet-O。

ImageNet-O数据集[9]由属于不同类别的图像组成,这些图像在模型训练期间未被模型看到,并被视为异常。对于这些图像,鲁棒的模型预计会输出较低的置信度分数。我们采用与[9]相同的评估方法使用精度召回曲线(AUPR)下的面积在图5中,我们报告了ImageNet-O数据集[9]上不同ViT和BiT模型的AUPR。ViT在异常检测方面的性能优于BiT。

ImageNet-9。

[15]中提出的ImageNet-9有助于验证视觉模型的背景鲁棒性。在大多数情况下,图像的前景会告知我们关于图像中可能存在的内容的决定。即使背景发生变化,只要前景保持不变,这些决定也不应受到影响。然而,视觉模型是否表现出与图像前景和背景类似的处理方式?事实证明,当图像的背景发生变化时,视觉模型可能会崩溃[15]。这可能表明视觉模型可能从图像背景中拾取了不必要的信号。[15]还表明,背景鲁棒性对于确定模型的分布外性能非常重要。因此,自然,这促使我们研究ViT是否比BiT具有更好的背景鲁棒性。我们发现情况确实如此(见表6)。此外,在表6中,我们报告了BiT和ViT检测图像前景是否易受攻击的能力4。似乎对于这项任务,ViT的性能也明显优于BiT。尽管我们注意到ViT的性能比BiT好,但令人惊讶的是,ViT的性能比ResNet-50差。我们怀疑这可能是由于ViT的简单标记化过程导致创建小型图像图块,从而限制了处理重要局部结构的能力[23]。

提高ViTs鲁棒性的4个因素

在本节中,我们系统地设计并进行了六个实验,从定性和定量的角度确定ViTs鲁棒性提高的来源。

4.1更长的预训练计划和更大的预训练数据集提高了鲁棒性

正如[43,2,44]所指出的,在较大的预训练数据集上,较长的预训练计划有效地迁移到下游任务,包括少量的射击学习。[2]中还显示,在下游任务期间,拥有较大的预训练数据集会增加正则化效果。为此,我们提出了一个问题——更长的预训练计划和更大的预训练数据集是否也有助于增强鲁棒性?为了进一步研究这一点,我们进行了以下实验:

•我们从ImageNet-A数据集获取所有图像[9]。之所以选择此数据集,是因为它具有许多测试模型鲁棒性能力所需的属性:(a)数据集中许多图像中存在的感兴趣对象不是集中定向的,(b)多个图像中存在多个对象,这使得模型更难将图像与离散的单个类别相关联,(c)不同的图像具有不同数量的纹理,这些纹理可以作为神经网络产生错误分类的伪相关性[42],和(d)这些特征在现实世界的大部分图像中并不罕见。

•通过BiT和ViT的不同变体运行图像,并记录top-1精度。对于本实验,我们还包括在ImageNet-1k数据集上预训练的BiT-s变体。表7总结了我们在上述实验中的发现。当较长的预训练计划与较大的预训练数据集相结合时,有助于提高模型在ImageNet-a数据集上的性能。另一个值得注意的趋势是,随着模型容量的增加,性能也会提高。在我们在表7中展示的不同型号的所有变体中,ViT变体的性能始终优于BiT变体(可比变体)。

4.2注意力是鲁棒性的关键

我们假设第4.1节中讨论的绩效提升可以归因于注意机制的使用。为了验证这一点,我们利用“注意力”卷展栏[45]来可视化两种不同情况下的注意力地图:(a)ViT产生高置信度正确预测,(b)ViT产生低置信度正确预测。图65显示了本研究的一些可视化结果。

令人惊讶的是,即使在如此黑暗的照明条件下,ViT也能够对“美国黑啤酒”等级做出正确的预测(图6(a)中的倒数第二个图)。另一方面,对于低置信度的情况,尽管ViT仍然能够产生正确的预测,但它的重点并不十分明确。例如,考虑图6(b)中的最后一个图。ViT将所有注意力都集中在站着的人身上,而不是他们拿着的卷轴上。

为了进一步研究ViT学习到的表征,更好地理解ViT注意广度的传播,我们应用Grad CAM[46],并将结果与BiT的结果进行比较。对于BiT,我们使用最后一个卷积块来计算相对于目标类的梯度。我们的比较结果如图7所示。但由于ViT的结构,我们无法将这些步骤直接应用于ViT。因此,我们按照[47]的实现来计算最后一个被重塑的注意块的梯度,以适应梯度凸轮的计算。

从图7可以看出,ViT试图维护一个全局上下文,以便生成预测,而BiT的解释更为局部和中心。例如,在图7中考虑被预测为“书店”的图像。我们可以观察到ViT使用来自图像不同部分的信息来确定目标类别。图像中感兴趣的对象可能并不总是与图像对象的中心对齐。此外,在处理诸如对象检测和分割之类的任务时,需要捕获长期依赖关系[7]。这就是为什么我们假设ViT应该能够很好地执行,即使在图像的某些看似关注的区域被遮掩的情况下。我们在第4.3节中研究了这一假设。还应该注意的是,有些虚假的注意区域不是很容易解释的(参考预测为“蜈蚣”的图像),可能会导致未来的研究6。

4.3 ViT对图像掩蔽具有更好的鲁棒性

为了进一步证明注意力确实对提高VIT的鲁棒性起着重要作用,我们进行了以下实验:

•从ImageNet-1k验证集中随机抽取1000张普通图像。

•在四个不同级别应用截断[49]:{5,10,20,50}%,并使用BiT(m-r101x3)和ViT(L-16)7计算每个级别的平均top-1精度分数。在剪切中,来自输入图像的方形区域被随机屏蔽。它最初是作为一种正则化技术提出的。

表8报告了当输入图像的方形部分被随机屏蔽时,ViT能够持续拍位。随机性在这里是可取的,因为ViT可以利用全局信息。如果我们固定掩蔽区域,ViT可能会受到太多限制,无法利用其利用全局信息的能力。应注意,我们在本实验中使用的ViT变体(L-16)比钻头变体(m-r101x3)浅。这可能表明,注意力确实是这一重大收获背后的强大力量。

4.4傅里叶光谱分析显示灵敏度低

关于视觉模型的一个常见假设是,它们可以很容易地识别出输入数据中存在的虚假相关性,这些相关性对人类来说可能是不可感知的[52–54,13]。为了衡量ViT在交易中的表现,我们对ViT、BiT和基线ResNet-50进行了傅里叶分析[50]。实验如下:

•生成具有不同频率的傅里叶基向量。

•将基础向量添加到ImageNet-1k验证集中随机采样的1000张图像中。

•记录每个受干扰图像的错误率,并生成最终错误矩阵的热图。

关于这个实验的更多细节,我们请读者参考[50]。在图8中,注意到ViT和BiT对扰动图像中存在的大多数区域保持鲁棒性(具有低灵敏度),而基线ResNet50V2在高频区域中失去一致性。位置(i,j)处的值显示了受相应傅里叶基噪声干扰的数据的错误率。ViT和BiT的低灵敏度可归因于以下因素:(a)ViT和BiT均在较大的数据集上进行预训练,然后在ImageNet-1k上进行微调。在预训练期间使用较大的数据集可能在这里起到正则化的作用[2]。(b) 证据还表明,增加网络宽度对模型鲁棒性有积极影响[13,9]。为了更深入地了解图8所示的热图,在表9中,我们报告了所考虑的三种模型的错误率百分位数。对于一个更鲁棒的模型,我们应该期望在表9中报告的所有五个不同的百分位数中看到更低的数字,我们确认确实如此。这也可能有助于解释BiT和ViT在本实验中更好的行为。

4.5 ViT的对抗性扰动在能谱中具有更广泛的传播

在[55]中,小的对抗性扰动可以改变神经网络(尤其是CNN)的决策边界,对抗性训练[56]利用这种敏感性来诱导鲁棒性。此外,CNN主要利用来自输入数据低频区域的鉴别特征。根据[55],我们使用ResNet-50、BiT-m r50x3和ViT B-168对ImageNet-1k验证集中的1000张随机抽样图像进行了以下实验:

•使用步长为509的DeepFool[51]生成小的对抗性扰动(δ)。

•使用离散余弦变换(DCT)改变扰动的基础,以计算扰动的能谱。

通过该实验装置,我们旨在确认ViT的扰动将扩展整个频谱,而ResNet-50和BiT的扰动将仅集中在低频区域。这主要是因为ViT能够更好地利用仅在全局上下文中可用的信息。图9显示了能谱分析。这表明,要攻击ViT,(几乎)所有频谱都需要受到影响,而BiT和ResNet-50的影响较小。

4.6 ViT对输入扰动具有更平滑的损失景观

将ViT的鲁棒性提高归因于BiT的一种方法是假设ViT在输入扰动方面具有更平滑的损失情况,这有助于增强分类的鲁棒性。在这里,我们根据两种模型正确分类的100幅ImageNet-1k验证图像,探讨ViT和BiT的损失情况。我们采用了多步投影梯度下降(PGD)攻击[56]和`∞ 将像素值范围规格化为介于[−1,1]在该公共设置上10(有关超参数的详细信息,请参阅附录G)。图10显示,随着攻击步骤的改变,ViT的分类损失(交叉熵)以比BiT慢得多的速度增加,这验证了我们关于输入扰动的更平滑损失的假设。

总之,在本节中,我们大致验证了ViT(主要是由于注意)可以提高鲁棒性(即使在某些情况下参数较少)。这表明Transformers的使用可以与已知技术正交,以提高视觉模型的鲁棒性[57、58、38]。

5结论和未来工作

鲁棒性是将深度学习模型部署到野外时要考虑的一个重要方面。这项工作使用6种不同的ImageNet数据集对ViT进行了全面的鲁棒性性能评估,并得出结论,ViT显著优于CNN对应物(BiT)和基线ResNet50V2模型。我们进一步进行了6项新实验,以验证我们关于ViT鲁棒性提高的假设,包括使用大规模预训练和注意模块、识别随机掩蔽图像的能力、对傅里叶谱域扰动的低敏感性,在对抗性输入扰动下,具有更宽的能量分布和更平滑的损耗分布。我们的分析和发现为理解鲁棒性的来源提供了新的见解,并为鲁棒神经网络结构设计提供了新的思路。未来的工作可以建立在我们工作发现的基础上,开发特定的方法来探索视觉Transformers和其他利用自注意力的架构所学习到的表征。

附录

一个图像图块

在ViT中,输入图像被划分为小块,如图11所示。这里,原始图像为224×224形状,每个图块为16×16形状。这给了我们总共196个图块。由于我们在这里处理RGB图像,我们还需要考虑通道维数。因此,总的来说,使用线性变换将这些16×16图块(具有3个通道)展平为768(16×16×3)的尺寸。因此,图块的空间信息会丢失,为了缓解这种情况,使用了位置编码。对于图块编码如何相互作用的视觉描述,我们请读者参考[1]的图7。

B带有梯度凸轮的附加样本

为了使我们在第4.2节中的论点更具体,我们在图B中提供了Grad CAM的附加结果。所有原始图像都来自ImageNet-1k验证集

C ImageNet-C上的其他结果

ImageNet-C的个人腐败分数。

在表10中,我们提供了15个不同类型的IVENETET-C的Top-1精度分数。注意,对于这一点,我们只考虑5的严重程度。如第3.2节所述,ViT在“对比度”腐败方面表现尤其差。

接下来,在表11中,我们报告了位m r101x3和ViT L-16给出的相同15种不同损坏上的单个非规范化损坏错误(未使用AlexNet错误进行缩放)。

在常见的腐败情况下保持稳定。

如第3.2节所述,当暴露于常见腐蚀时,ViT的性能显著优于BiT。为了更好地理解ViT是否能够在这些腐蚀下保持其注意力广度,在图13中,我们提供了从不同严重程度的ImageNet-C采样的一些图像的梯度CAM结果。

虽然BiT的梯度凸轮结果看起来更吸引人,但轻微的腐蚀足以使其预测发生逆转。然而,ViT的情况并非如此。通过利用更多的全球环境,即使在这些腐败的情况下,它也能够表现出强大的信心。

D ImageNet-P上的其他结果

在表12和表13中,我们分别用BiT和ViT报告了ImageNet-P的各个微扰类型的翻转率和前5位距离。这些分数是非标准化的,这意味着它们没有使用相应的AlexNet分数进行缩放。

E带剪切的随机掩模

在图14中,我们展示了比特(m-r101x3)和ViT(L-16)的预测是如何随着截止器中掩蔽因子的变化而变化的[49]。我们提供这些结果是为了更清楚地了解第4.3节中进行的实验。这些结果不应被视为任何结论。

F震级谱和高频分量

由于我们在第4.4节中使用了傅里叶分析,为了全面起见,我们在图15中提供了频率分量的幅度谱以及自然图像的原始高频分量的可视化。

对抗性扰动

进入对抗性干扰的顶峰。

在图16中,我们可视化了由BiT-m r101x3和ViT L-16学习到的扰动。我们在这里使用Adam[59]作为优化器,以1e-3的学习率实施PGD攻击(实施细节见第4.6节)。一般来说,我们发现ViT情况下的扰动更平滑。

损失景观的个别样本。

在图17中,我们显示了第4.6节中使用的五个单独ImageNet-1k验证图像的PGD损失图。这些样本不是为了更好地隔离图10所示的结果而精心挑选的。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,064评论 5 466
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,606评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,011评论 0 328
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,550评论 1 269
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,465评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 47,919评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,428评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,075评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,208评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,185评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,191评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,914评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,482评论 3 302
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,585评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,825评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,194评论 2 344
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,703评论 2 339

推荐阅读更多精彩内容