姓名:张钰 学号:21011210154 学院:通信工程学院
【嵌牛导读】Multi-attentional Deepfake Detection论文阅读笔记
【嵌牛鼻子】Deepfake人脸检测方法
【嵌牛提问】如何实现伪造检测,有何创新点
【嵌牛正文】
转自:https://blog.csdn.net/qq_43687860/article/details/124854122
一、论文信息:
- 题目:Multi-attentional Deepfake Detection
-
作者团队:
- 会议:CVPR 2021
二、背景与创新:
- 背景:之前大多数方法将deepfake检测模型作为一个普通的二分类问题,即首先使用骨干网络提取全局特征,然后将其输入二分类器(real/fake)。但由于在鉴伪任务中,真假图像之间的差异往往是微妙的和局部的,作者认为普通的解决方法不是最佳的。
-
创新:本文将Deepfake表述为一个细粒度的分类问题,并提出了一种新的多注意力的Deepfake检测网络。具体有以下几部分:
1. 多个空间注意力头,使网络关注不同的局部区域,并从多个人脸注意区域中获取局部区别特征;
2. 纹理增强块,放大浅层特征中的细微伪影;
3. 在注意力图的指导下,聚合低层纹理特征和高层语义特征;
4. 为了解决网络的学习困难,进一步引入了一个新的区域独立性损失和一个注意力引导的数据增强策略,以对抗学习的方式辅助网络训练。
三、网络结构
3.1 overview
本文作者提出的多注意力网络框架如下图表示:
三个关键组件集成到主干网络中:
- 使用一个注意力模块来生成多个注意力图。
- 使用密集连接的卷积层作为纹理增强模块,可以从浅层特征图中提取和增强纹理信息。
- 利用双线性关注池(BAP)代替全局平均关注池化。使用贝叶斯概率方法从浅层收集纹理特征矩阵,从深层保留语义特征。
3.2 方法
1、多注意力图
- 输入I,经过Backbone Layers 1得到的Shallow feature ,将Fsla(I)输入到设计的attention block中,得到Attetion maps。其中attention block由一个1×1的卷积层,1个BN层,1个非线性激活RELU组成。真假人脸之间的差异通常是微妙的,并且发生在局部,这并不容易被单注意力网络结构捕获。所以将注意力分散到多个局部,更有效地收集局部特征。
2、纹理增强
- 将经过一个局部平均池化下采样得到池特征图(Pooled feature map)D,大多数检测模型都没有注意到,伪影通常在浅层特征的纹理信息中较为突出。这里的纹理信息代表浅层特征的高频分量。因此,为了保留更多的纹理信息来捕捉这些伪影,设计了一个纹理特征增强block。其中采用归一化平均池化替换全局平均池化。
- 我们在特征层定义残差来表示纹理信息如下:
- 这里的T包含了的大部分纹理信息,然后使用3层密集连接的卷积块来增强T,输出记为,称为“textual feature map"。
3、双线性注意力池化(BAP)
- 对浅层特征图和深层特征图都使用双向BAP,为了提取浅层纹理特征,我们首先使用双线性插值将注意力图调整到与特征图相同的比例,如果它们不匹配的话。然后,我们分别用每个注意力图Aka元素乘纹理特征图F,得到部分纹理特征图Fk。
-
考虑到不同区域范围之间的差异,如果使用传统的全局平均融合,融合后的特征向量会受到注意力图强度的影响,这违背了关注纹理信息的目的。为了解决这个问题,我们设计了一个标准化的平均池:
通过叠加Vk得到纹理特征矩阵,然后送进分类器。
3.3 注意力图正则化的区域独立性损失
于缺乏细粒度级别的标签,所以容易陷入网络降级的情况。即不同的注意力图往往集中在同一区域,这不利于网络捕捉给定输入的丰富信息。作者希望每个注意力图都位于固定的语义区域。所以提出一个区域独立性损失,以减少特征图之间的重叠,并保持不同输入的一致性。通过中心损失,区域独立性损失定义如下:其中B是批大小,M是注意力的数量,Min表示特征与相应的特征中心之间的边界,并且随着Yi是0还是1而变化,Mout是每个特征中心之间的边界,其中C被定义为:
其中 α为特征中心的更新速率,每个epoch都衰减它。
L_RIL的第一部分是类内loss,目的是为了将V逼近特征中心c,第二部分是类间loss,排斥分散的特征中心。作者将这种区域独立性损失与传统的交叉熵损失相结合,Lce为交叉熵损失,λ1=λ2=1,最后Loss被定义为:
3.4 注意力引导的数据增强
为了让不同的注意力图注意不同的区域,作者提出了注意力引导的数据增强的方法。
作用:
- 该方法可以对某些区域进行模糊化处理,保证模型能够从其他区域学习到更为稳健的特征;
- AGDA可以偶然删除最显著的区分区域,强制Attention map关注在不同的区域(不同的标签);
- AGDA机制可以防止单个关注区域过度扩展,并鼓励关注块探索各种关注区域划分形式。
四、实验
实验细节
- α=0.5,每epoch乘0.9;
- mout=0.2, min=0.05, 0.1 respectively for real and fake images;
- et the resize factor 0.3 and Gaussian blur σ = 7;
- Adamoptimizer with learning rate 0.001 and weight decay 1e-6;
- batch size 48;
- 对齐的面部图像保存为380 × 380大小的输入。
- 采用EfficientNet-b4作为backbone network,包括7层主要的层在EfficientNet中,分别用L1-L7表示。由于观察到细微的伪影倾向于被网络较浅层的纹理特征所保留,所以选择L2和L3。
- FF++数据集训练,celeb-DF跨数据集评估: