Polishing Decision-based Adversarial Noise with a Customized Sampling

摘要

作为有效的黑盒对抗攻击，基于决策的方法通过查询目标模型来优化对抗噪声。其中，边界攻击由于其强大的噪声压缩能力而被广泛应用，尤其是与基于传输的方法结合使用时。边界攻击将噪声压缩分为几个独立的采样过程，并以恒定的采样设置重复每个查询。在本文中，我们演示了使用当前噪声和历史查询来定制边界攻击中的方差和采样平均值去优化噪声。我们进一步揭示了边界攻击中初始噪声与压缩噪声之间的关系。我们提出了定制对抗边界（CAB）攻击，该攻击使用当前噪声来建模每个像素的灵敏度，并使用定制采样设置来优化每个图像的对抗噪声。一方面，CAB使用当前噪声作为定制多元正态分布的先验信念。另一方面，CAB使新采样远离历史失败的查询，以避免类似的错误。在多个图像分类数据集上测量的实验结果强调了我们方法的有效性

1.介绍

对抗性例子[29，22]揭示了深度神经网络（DNN）的固有脆弱性。根据攻击者对目标模型的了解[23]，对抗性攻击可以分为白盒攻击和黑盒攻击。在黑盒攻击中，攻击者只能查询目标模型并获得硬标签预测，而无需完全了解目标模型。基于传输的攻击[13、18、8、9、25]，基于决策的攻击[32、10、2、25]和基于零阶优化的攻击[5、20、31]是三种主流黑盒攻击。

其中，基于决策的攻击通过在原始图像的输入空间中随机搜索来消除噪声。它既不需要作为基于传输的攻击的替代模型，也不需要作为零阶优化的对目标模型的彻底查询，并且可以在有限查询下生成相对较小幅度的对抗性噪声。最近的几项研究[2、1、7]表明，基于传输的攻击和基于决策的攻击的组合可以达到最新的黑盒攻击效果

构建对抗性示例并不是要简单地欺骗DNN，而是要定量评估目标模型的鲁棒性。通过不断改进对抗性扰动，我们可以逐步实现对最小噪声幅度的准确评估，以进行错误分类。对于图像分类器，错误分类每个图像所需的最小噪声，一个攻击过程的每个阶段中合理的查询方向，甚至图像中每个像素的灵敏度都不同[11]。因此，对一个目标模型的鲁棒性进行准确评估需要定制每个图像及其攻击过程。白盒攻击通过反向传播直接建模像素和类别之间的相关性[13，3]。对于黑盒攻击，对于攻击者而言，唯一的线索就是历史查询，这是每个像素的噪声敏感度的无偏特征。但是，大多数现有的基于决策的攻击[1、2]都使用与历史查询或当前噪声无关的恒定采样设置，从而严重阻碍了噪声优化的效率。

在基于决策的攻击中失败的采样包含决策边界的位置信息[12]。尽管失败的采样（即采样属于真实类别）不能直接用于压缩噪声，但它们会以更大的概率描绘决策边界上的方向。由于我们希望尽可能多的样本落在决策边界的另一侧，因此该信息可用于自定义采样过程，并使新样本远离发生故障的可能性较高的方向。但是，现有的基于决策的攻击总是在恒定分布上采样，并且在攻击过程中永远不会更改采样。此外，在现有的基于决策的攻击中，单步修改的步长也是一个恒定值。随着噪声幅度的降低，查询的成功率将逐渐降低，并且在恒定步长的情况下，噪声抛光的效率将进一步受到影响。

在本文中，我们表明，为使边界攻击的单个步骤后的噪声幅度最小，多元正态分布的方差应与当前噪声的绝对值线性相关，如图1（a）所示。每个维度使用单位差异的概念。此外，通过噪声压缩的单调性，我们分析了使用基于转移的攻击来初始化对抗性噪声相对于随机初始化的优势。我们根据噪声压缩的这一特性调整了分步定制的策略。在当前噪声和历史查询的指导下，我们提出了定制对抗边界（CAB），这是一种基于决策的攻击，可根据每个像素的噪声敏感性定制采样分布。 CAB自定义历史失败样本的样本分布平均值，如图1（b）中的黄色叉所示。这样，新样本就被引导远离具有高失败率的方向。在Imagenet [24]，Tiny-Imagenet [1]，MNIST [19]和CIFAR-10 [17]上的实验表明，在相同查询限制下，CAB比其他基于决策的攻击获得的中值噪声幅度更小

我们将我们的贡献总结如下：
(1)我们表明，为了最大程度地减少噪声，边界边界处的采样方差应与当前噪声成正比。
(2)基于边界攻击的噪声压缩的单调性，我们改进了其步长调整，并使用基于传递的攻击来定制初始噪声。 (3)我们开发CAB，这是一种基于决策的攻击，它利用当前的噪声和失败的样本来定制采样过程中的正态分布。在多个数据集和模型上的大量实验证明，CAB优于其他基于决策的攻击。

2.相关工作

如果无法访问目标模型的梯度，则基于转移的攻击，基于决策的攻击以及基于零阶优化的攻击会为黑盒场景提供三种不同的解决方案。在本文中，我们主要讨论前两种方法及其组合。

2.1.基于迁移的攻击

基于迁移的攻击通过利用替代模型和目标模型之间的可迁移性来欺骗DNN [21]。基于迁移的攻击的效果可能会受到目标模型的整体对抗训练[30]的影响。一种更合理的策略是将黑盒攻击分为两个阶段：首先通过基于传输的攻击生成对抗示例作为起点，然后通过基于决策的攻击进一步压缩其冗余噪声[25，2]。

2.2.基于决策的攻击

基于决策的攻击在原始图像附近进行采样，以寻求较小的噪声幅度而不会越过决策边界。基于决策的攻击不依赖替代模型，而是使用各种策略来找到对抗性示例。大多数基于决策的攻击都需要一个最初的对抗性示例，该示例已经被错误分类为起点(strating point)。以下介绍了几种基于决策的最新攻击

Whey Optimization

Whey优化[25]将对抗性噪声分为几组以降低噪声幅度。 Whey的贪婪搜索过程经过几步压缩后趋于陷入局部最优，降低了后期搜索效率。

Boundary Attack

边界攻击[32]从一个对抗示例开始，同时沿两个方向搜索，即球形方向和源方向：

其中 $x_t$ 是经过 $t$ 步边界攻击后噪声最小的对抗示例。 $η$ 和 $(x-xt)$ 分别指球形方向和源方向。 $δ$ 是球形方向的步长，而 $ε$ 是源方向的步长。由于每个维度都随意使用标准正态分布，因此边界攻击无法评估和利用像素之间的噪声敏感度差异。

Biased Boundary Attack

偏向边界攻击[2]用Perlin分布代替边界中的正态分布，着重于输入空间的低频域，以使对抗性示例更加“自然”

Evolutionary Attack

进化攻击[10]通过双线性插值和将噪声限制在图像的中心部分来减小采样空间的大小。进化攻击在涉及人脸识别等先验知识强的任务中表现更好。

还有其他一些攻击涉及零阶优化[5，20，31，4，6]。它们主要针对黑匣子场景，在该场景中可以获得每个类别的分数或具有相对足够的查询预算。在本文中，我们仅讨论具有有限查询的黑盒方案，而目标模型仅输出硬标签。

3.拟议方法

3.1.符号表示

考虑在黑盒攻击下基于DNN的目标模型： $F：X^N→Y^C$ ，其中 $X$ 表示输入空间， $N$ 表示尺寸（N =宽度×高度×图像数据的通道）， $Y$ 表示分为 $C$ 类的分类空间。假设 $x ^*$ 是我们发现的最小噪声大小的对抗示例。基于决策的攻击的目标可以描述为:

其中 $x$ 和 $x'$ 分别代表原始图像和此步骤之后生成的新对抗示例。我们用原始图像 $x$ 和对抗性噪声 $z ^*$ 和 $z^∗ + z$ 的总和替换对抗性示例 $x^∗$ 和 $x'$ ，其中 $z^∗$ 和 $z$ 是当前对抗性噪声，幅度最小，此步骤之后添加的噪声分别。由于 $x$ 和 $x^∗$ 是固定的，因此方程式(2)中的目标函数可以等效地改写为:

注意， $l_2$ 距离是在假设对抗性示例被目标模型错误分类的前提下计算的。选择 $l_2$ 范式作为距离度量标准是因为它比 $l_\infty$ 范式[11]更准确地描述了一个模型的鲁棒性[11]。

3.2.方差和降噪

在本节中，我们将正式证明，当采样中的正态分布方差与当前噪声的绝对值线性相关时，降噪的期望最大。

作为一种拒绝采样[12]，当一个采样的降噪幅度大于零，即 $z^∗•η≤0$ 时，边界攻击将仅查询目标模型。因此，在一步边界攻击后，当 $σ_i∝ |z^∗_i |$ ， $1≤i≤N$ 时，新噪声 $x'$ 的期望最小化，

为了更直观地显示 $σ$ 对降噪的影响，我们在图2中可视化了 $x'$ 在二维空间中的分布。蓝色矢量表示 $x^∗ =(3, 1)$ 。红色标记表示在以 $(3, 1)$ 为中心的 $σ_1：σ_2= 3：1$ $(a)$ 和 $σ_1：σ_2= 1：1$ $(b)$ 的正态分布下1000次采样后 $x'$ 的分布。红色越深，附近的样本越密集。 $x_1 = 0$ 和 $x_2 = 4$ 处的黑色折线图分别是 $x_2$ 和 $x_1$ 的独立概率分布 $P$ 。当二维方差比 $σ_1：σ_2= x^∗_1：x^∗_2$ 时， $x'$ 集中在 $(a)$ 中与 $x^∗$ 相反的方向。但是，对于 $(b)$ 中每个尺寸的方差相等， $x^*$ 会在所有方向上均匀分布，这会阻碍噪声的有效抛光。这种关系表明，与所有尺寸的标准正态分布相比，通过当前噪声自定义的正态分布上的采样增加了降噪的期望。

3.3.定制初始噪声和步长

在本节中，我们通过分析基于决策的攻击中噪声压缩的单调性来定制初始噪声和步长。在误分类概率随与原始图像的距离单调增加的假设下，最终噪声幅度与初始噪声幅度呈正相关。一方面，这解释了通过基于传输的攻击初始化对抗性噪声的有效性。另一方面，我们基于此功能调整了边界攻击中定制步长的策略

根据[11]中的设置，我们将 $ρ_{F,x}(λ)$ 表示为目标模型 $F$ 对随机点的误分类概率，该随机点距原始图像 $x$ 的距离为 $λ$

从命题1中，我们表明，在误分类概率随与原始图像的距离单调增加的假设下，一步之后的预期噪声幅度也随初始噪声幅度单调增加。基于决策的攻击过程满足无记忆性，即，当前噪声仅由最后一步[32]的噪声确定。因此，噪声压缩的单调性可以在多个步骤中满足传递性。换句话说，当使用相同的基于决策的攻击并查询目标模型相同的时间时，预期的最终噪声幅度与初始噪声幅度呈正相关。

这说明了在黑盒场景中将基于传输的攻击与基于决策的攻击相结合的有效性。基于决策的方法（例如边界攻击）使用随机噪声作为初始噪声，其大小比基于传输的攻击所产生的噪声大得多，因此在相同数量的查询下最终噪声也较大。我们遵循此黑盒攻击设置，该设置使用基于传输的攻击生成的对抗示例作为基于决策的攻击的起点。另外，随着噪声大小的不断压缩，如果将公式(1)中的 $δ$ 和 $ε$ 逐步增大，则新查询错误分类的可能性将逐渐降低。（1）对于球面和光源方向保持不变。为了弥补查询成功率的下降，我们引入了指数调度以动态定制两个方向上的步长

其中 $s$ 表示到目前为止成功查询的数量， $δ_s$ 和 $ε_s$ 是成功查询后球形和源方向的步长。 $δ_0$ 和 $ε_0$ 是初始步长。 $φ∈(0, 1)$ 是逐步调整的衰减因子。由于最近的对抗示例与原始图像之间的距离缩短了，因此新查询的步距也减小了。这种指数式调度策略可在噪声压缩率与查询成功率之间取得平衡，从而针对不同图像以及一个图像的不同查询阶段逐步调整大小

3.4.CAB攻击

对于在大输入空间中随机搜索的边界攻击，减小采样空间对于噪声消除的效率至关重要。进化攻击[10]通过双线性插值和将对抗性噪声限制在图像中心来减少采样空间。通过相对位置区分像素对噪声的敏感度对于具有单个结构的图像（例如，面部识别图像）或较小的尺寸可能是有效的，但是对于较大且更复杂的图像则无效。与[10]中的人工规则相比，当前噪声z *是像素灵敏度的更无偏见的表征。因此，我们仅在当前噪声幅度已经很大的像素上调整噪声

其中 $\hat z$ 是 $z^∗$ 中具有最大绝对值的一组像素， $r∈(0,1)$ 是 $\hat z$ 和 $z^∗$ 中的像素数之比。具体来说，我们根据比率 $r$ 选取 $z^*$ 中绝对值最大的像素，并形成一个遮罩(mask) $T$ ，以滤除新噪声的敏感度较低的区域。

在当前噪声的指导下，CAB攻击根据第3.2节和图2得出的结论自适应地为每个维度分配正态分布的方差比，并选择对噪声最敏感的区域以进一步减少采样空间。这两个过程都利用了历史上成功的采样优势。尽管现有的基于决策的攻击直接丢弃失败的采样，但实际上它们包含有关决策边界的信息。我们修改下一个样本的分布平均值，以避开失败的样本

其中K是当前对抗示例x ∗上失败采样的总数，而η是第j次失败采样所使用的法向随机矢量。我们维护一个对抗示例的采样记录，并保存关于当前对抗示例x ∗ as〜x的所有失败采样。记录将不断更新，直到成功采样，即进一步压缩噪声。由于在基于决策的攻击的后期，采样的成功率会随着噪声幅度的降低而降低，因此保持记录可以使新的采样远离历史失败的采样。算法1详细介绍了CAB攻击

实验

在Tiny-Imagenet [1]和Imagenet [24]数据集上分别以64×64×3和224×224×3的图像大小测试了CAB攻击。在实验中，我们将对抗性噪声添加到Imagenet和Tiny-Imagenet的验证集中，分别包含50000和10000张图像，并输入八个不同的目标模型：Resnet-18 [14]，Inception-v3 [28]，Inception-Resnet v2 [27]，NASNet [34]，Resnet-101，Dense-161 [16]，VGG19 [26]和SENet-154 [15]。至于评估标准，我们通过中值噪声幅度将CAB与其他攻击进行比较

其中x是测试集中X的原始图像。x'是找到的最接近x的对抗示例。较小的中间噪声强度表示在相同数量的查询下，攻击方法可以更好地消除对抗性噪声。值得注意的是，在将对抗性示例输入到目标模型之前进行了四舍五入，以获得更真实的黑盒攻击设置