Towards Transferable Targeted Attack

摘要

对抗性示例的一个特性是它们的可移植性，这表明在实际应用中黑盒攻击是可行的。先前的工作主要研究非目标环境下的可转移性。但是，最近的研究表明，有针对性的对抗性例子比无针对性的对抗性例子更难以转移。在本文中，我们发现存在两个缺陷，导致难以生成可移植的示例。首先，在迭代攻击过程中梯度的大小正在减小，导致动量累积中两个连续噪声之间的过度一致性，这被称为噪声固化。其次，仅使目标对抗性例子靠近目标类别而不离开真实类别是不够的。为了克服上述问题，我们提出了一种新颖的有针对性的攻击方法，以有效地产生更多可转移的对抗性例子。具体来说，我们首先引入Poincaré距离作为相似性度量，以在迭代攻击过程中使梯度的幅值自适应以减轻噪声固化。此外，我们通过度量学习对目标攻击过程进行了规范化处理，以使对抗性示例远离真实标签，并获得更多可转移的目标性对抗性示例。 ImageNet上的实验证实了我们的方法的优越性，在黑盒针对性攻击中，与其他最新技术相比，其攻击成功率平均提高了8％

介绍

随着深度学习在各个领域的巨大成功，深度神经网络（DNN）的鲁棒性和稳定性引起了越来越多的关注。但是，最近的研究证实，几乎所有DNN都存在对抗性示例问题，这意味着在DNN中，通过添加一些不可察觉的干扰，原始图像可以从决策的一侧转移。边界到另一侧，造成可辨别的错误。由于神经网络在对抗性攻击中的脆弱性，因此对于深层神经网络的应用也构成了严重的安全问题。在这种情况下，已经提出了许多对抗性攻击方法来帮助评估和提高DNN的鲁棒性。通常，这些攻击方法根据其对抗性可分为两类：非针对性攻击和针对性攻击。有针对性的攻击期望将对抗性示例误认为是特定类别。在非针对性攻击中，我们希望对抗示例的预测可以是任意的，但原始示例除外。此外，最近的研究表明，通过某些攻击方法生成的非目标对抗示例具有较高的跨模型可传递性，也就是说，由某些已知模型生成的对抗示例也具有使模型具有欺骗性的能力。未知的架构和参数。仅通过可传递性而没有任何先验地攻击这种模型称为黑盒攻击，这给实际DNN的部署带来了更严重的安全性问题。尽管黑盒攻击已成为研究热点，但大多数现有的攻击方法（例如Carlini＆Wagners方法，快速梯度符号方法和基于快速梯度符号的方法）都将重点放在非目标攻击上并且取得了巨大的成功，但是对于更具挑战性的针对黑匣子的攻击，他们仍然无能为力。通过最大化目标类别的概率，中的作者将非目标攻击方法扩展到目标攻击，但是这种简单的扩展不能有效地利用目标攻击的特征，从而导致生成的对抗示例没有被利用。可转让的。因此，开发可转移的有针对性的对抗性实例具有重要意义。

在本文中，我们发现现有的黑盒针对性攻击方法存在两个严重缺陷。首先，传统方法使用softmax交叉熵作为损失函数。因此，正如我们将在等式中所示。（7），梯度的大小随着迭代攻击中目标类别的概率的增加而减小。由于添加的噪声是每次迭代中梯度的动量累积，并且梯度的大小在此过程中不断减小，从而导致历史动量主导了噪声。最后，在迭代过程中，连续的噪声趋于一致，从而导致噪声的多样性和适应性不足。我们将此现象称为噪声固化。其次，传统方法仅要求对抗示例接近目标类别，而无需在迭代过程中远离原始类别，这使得生成的目标对抗示例接近其真实类别。因此，在某些情况下，目标对手实例既无法成功转移目标标签，也无法欺骗模型。为了克服这两个问题，首次引入了庞加莱空间作为度量空间，其中，当您朝着球的表面移动时，球表面的距离呈指数增长（与其欧几里得距离相比），因此以解决针对性攻击中的噪音消除现象。我们还发现，长期以来被视为有用的攻击目标的有用信息的干净示例可以帮助对抗性示例脱离原始类别。通过提议的度量学习正则化，我们在度量标准方法中使用了真实标签，以在迭代攻击过程中使对抗性示例远离原始预测，这有助于生成可转移的目标示例。总而言之，本文的主要贡献如下：

(1）我们发现并主张其与非目标攻击不同的特殊属性，而不是将目标攻击视为非目标攻击的简单扩展，而不是将其视为非目标攻击的简单扩展。开发一种新方法来改善目标攻击模型的性能。
(2）我们正式确定了针对性攻击中的噪声固化问题，这是之前从未研究过的，也是第一次，引入庞加莱空间作为度量空间而不是softmax交叉熵来解决噪声固化问题。
(3）我们还认为，可以利用其他真实标签信息来促进针对性对抗性示例，例如，通过新的三元组损失来实现对等对抗。相反，现有作品中未考虑地面真相标签信息。
(4）我们以广泛的实验研究了Imagenet数据集上现有方法的目标转移性。所有结果表明，我们的方法在目标打击方面始终优于最新方法。

2.背景

我们简要回顾了一些相关的对抗性攻击方法，并简要介绍了庞加莱空间

2.1对抗攻击

约束优化问题可以表述为：

其中J是最大化的交叉熵损失

2.1.1黑盒攻击

为了解决优化问题（1），需要计算损失函数相对于输入的梯度，称为白盒攻击。对于白盒攻击，首先引入针对DNN的广告示例。使用L-BFGS生成对抗性示例，这既耗时又不切实际。然后，提出了快速梯度符号法（FGSM），该方法使用与输入关联的梯度符号来学习对抗性示例。 FGSM的非目标攻击版本是：

FGSM

但是，在许多情况下，我们无法访问分类器，而我们需要以黑盒的方式进行攻击。由于存在可传递性，白盒攻击产生的对抗性例子可以转化为黑盒攻击。因此，为了实现强大的黑盒攻击，提出了一系列改善传输性的方法。作为一项开创性的工作，提出了动量迭代FGSM（MI-FGSM），该动量迭代FGSM将动量项整合到攻击的迭代过程中，以确保增加噪声的方向更加平滑：

MI-FGSM

其中，μ是动量项的衰减因子，并且Clip函数将输入值裁剪为指定的允许范围，即[x - ε，x + ε]和[0，1]

2.1.2目标攻击（针对性攻击）

目标攻击通常发生在多分类问题中，与非目标攻击不同，目标攻击需要目标模型输出特定的目标标签。文献表明，尽管很容易找到可转移的非目标对抗性实例，但由先前方法生成的目标对抗性实例几乎永远不会随其目标标签一起转移。因此，他们提出了基于集成的方法来生成可转移的有目标的对抗示例。该模式通过最大化目标类别的概率，将非目标性的攻击方法扩展到目标性的攻击

2.2. Poincaré Ball

图（a）

庞加莱球是典型的双曲空间之一。如图（a）所示，与Euclid几何空间不同，庞加莱球通过点P的直线不与线R相交。圆弧永远不会到达球的圆周。这类似于延伸到无穷远处的双曲面上的测地线，也就是说，随着弧线接近圆周，它正接近平面的“无穷大”，这意味着向着球的表面移动（与其欧几里得距离相比）到球表面的距离成倍增长。庞加莱球可以在一个单位球中适合整个几何形状，这意味着它的容量比Euclid表示的球高。庞加莱球模型由于具有很高的表示能力，因此在度量学习和表示学习中受到青睐，用于处理计算机视觉任务中的复杂数据分布。庞加莱（Poincaré）球的所有点都在n维单位 $l_2$ 球内部，两点之间的距离定义为:

图（b）

从图（b）可以看出，任意点到边缘的距离趋于 $\infty$ 。如图（c）所示，庞加莱距离球的表面很近时，其庞加莱距离的增长很严重。这意味着，随着梯度向表面移动，梯度的大小将增加

图（c）

3.方法论

在本节中，我们首先阐述本文的动机和意义，然后说明如何将庞加莱距离整合到迭代FGSM中，以及如何使用度量学习方法来规范化迭代攻击。

3.1.动机

有针对性的攻击与非针对性攻击有两个主要区别。首先，针对性攻击具有目标，这意味着我们应该为对抗性示例找到一个（局部）最小点。对于非目标攻击，数据点仅需要避免被不良的局部最大值捕获，然后远离判别边界。其次，在有针对性的攻击中，我们应确保对抗性示例不仅不像原始类，而且更类似于目标模型的目标类。但是，我们注意到，现有方法无法有效利用这两个差异，导致目标攻击的可传递性较差。首先，大多数现有方法都使用交叉熵作为损失函数： $ξ(Y,P)=-\sum_iy_ilog(p_i)$ ，其中 $p_i$ 是预测概率和 $y_i$ 是一个热门标签。对于目标攻击过程，相对于softmax输入向量 $o$ 的交叉熵损失的导数可推导如下:

如图3所示，在有针对性的MI-FGSM中，即使经过重新缩放，由于动量的积累，在最后的几次迭代中，附加的噪声方向仍然具有很高的余弦相似度，这证明了噪声固化的存在。这是非目标攻击的好属性，因为它帮助数据点沿固定方向偏离判别边界。但是，对于接近目标类别最小值的定向攻击，固化噪声无法有效地找到该最小值，从而导致定向攻击的性能较差。更糟糕的是，如图2所示，当目标类别的输出概率接近1时，由于softmax的饱和，尽管softmax输入变化很大，但梯度变化很小。在这种情况下，如果在最后的几次迭代中梯度方向不合适，则将累积误差。而且我们动机的最后一点是，传统方法只专注于最大化目标人群的概率，而忽略了对抗性例子是否接近原始标签。如图4所示，尽管这些方法在白盒设置中效果很好，但目标对抗示例很难与相应的真实类别区分开。同时，原始标签很久以来就被忽略了。受此启发，我们希望利用原始标签来生成更强大的针对性对抗示例

图3

图2

图4

3.2. 用庞加莱距离度量进行目标攻击

基于以上分析，我们旨在通过使用庞加莱距离度量而非交叉熵损失来提高目标对抗性示例的可传递性。请注意， $y$ （一个用于标签的热编码矢量）具有 $\sum_iy_i$ = 1，表示它在单位 $l_1$ 球上。当 $y$ 是一个没有平滑的热标签时，我们有 $\begin{Vmatrix}y\\ \end{Vmatrix}_2$ =1。那么，点 $y$ 在庞加莱球的边缘，这意味着从任何点到该点的距离为 $+∞$ 。在有针对性的攻击中，我们将减少模型的logits与目标类之间的距离。正如我们在2.2节中介绍的那样，数据点越靠近边界，渐变值越大。但是使用庞加莱距离作为度量仍然存在一个严重的问题。融合后的logits不能满 $\begin{Vmatrix}l(x)\\ \end{Vmatrix}_2$ 。因此，本文中的logit用 $l_1$ 距离归一化。对于一个热目标标签 $y$ ，从任意点到目标标签的距离均为 $+∞$ ，这使其难以优化。为避免这种情况，我们从以下小的常数ξ= 0.0001中减去 $y$ 。庞加莱距离度量损失:

通过使用庞加莱度量标准，当且仅当数据点更靠近目标标签（即表面附近）时，梯度的大小才会增加。这意味着梯度是自适应的，从而使噪声的方向更加灵活

3.3.针对目标攻击的三重损失

在针对性攻击中，损失功能通常仅与目标标签相关。但是，生成的对抗性示例可能与原始类别过于接近，因此目标模型仍会将某些对抗性示例归类为原始类别。因此，我们希望我们的方法可以减少正确分类的对抗性示例的数量，然后可以获得更多可转移的目标对抗性示例。在这种信念的驱动下，度量学习中的经典损失函数三元组损失被引入到目标攻击过程中。它不仅减小了对抗示例输出与目标标签之间的距离，而且还增大了对抗示例输出与真实标签之间的距离。典型的三重态损失为:

角损失的使用排除了规范对损失值的影响。因此，将三重态损失项添加到损失函数中，可以得到整体损失函数

4.实验

在大规模ImageNet数据集上进行了广泛的实验，以评估该方法的性能以及一些最新的对抗方法

算法：

4.2攻击自然训练的模型

表1中的结果显示了白盒攻击成功率和黑盒攻击成功率，表的顶部显示了在集合网络上评估的白盒针对性攻击成功率，表的底部显示了黑盒攻击成功率。框针对性攻击成功率。可以观察到，在具有挑战性的黑匣子目标设置下，我们的方法优于DI2-FGSM和TI-FGSM，其余量超过8％。此外，我们的方法在白盒设置中的平均表现优于DI2-FGSM和TI-FGSM，分别为7.0％和5.9％。我们在图5中显示了由我们的方法生成的一些对抗图像及其干净的对应图像，这些图像均由手动Inception-v3设置生成。可以看出，对抗图像和清晰图像之间的差异是人类无法察觉的

表1

4.3攻击对抗训练的模型

对抗训练是抵御承受强大攻击的对抗攻击的少数防御措施之一。对抗性示例的可传递性在对抗性训练的模型上大大降低了。因此，为黑盒对抗训练模型生成可转移的有针对性的对抗示例要比正常训练的模型困难得多，并且被认为是一个公开的问题。出于完整性考虑，我们在对抗训练的模型上执行我们的方法和其他攻击方法。为了以黑盒的方式攻击经过对抗训练的模型，我们包括了九种模型。
结果显示在表2中。可以看出，经过对抗训练的模型对对抗示例的鲁棒性更高：

表2

简单地使用输入多样性产生的对抗性例子不能有效地欺骗对抗性训练的模型。 TI-FGSM通过减轻模型与对抗训练的模型之间不同区分区域的影响来显示其有效性。但是我们的方法仍然胜过其他所有方法。该结果表明，可以对付经过对抗训练的模型。