https://arxiv.org/pdf/2012.07177.pdf
Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation
Golnaz Ghiasi, Yin Cui, Aravind Srinivas, Rui Qian, Tsung-Yi Lin, Ekin D. Cubuk, Quoc V. Le, Barret Zoph
在计算机视觉中,建立数据高效且能处理稀有对象类别的实例分割模型是一个重要的挑战。利用数据扩充是解决这一挑战的一个有希望的方向。在这里,我们对复制粘贴增强([13,12])进行了系统的研究,例如我们将对象随机粘贴到图像上的分割。以往对复制粘贴的研究依赖于对周围的视觉环境进行建模来粘贴对象。然而,我们发现随机粘贴对象的简单机制已经足够好了,可以在强基线的基础上提供可靠的增益。此外,我们还证明了复制粘贴与半监督方法是相加的,半监督方法通过伪标记(如自训练)利用额外的数据。在COCO实例分割方面,我们实现了49.1的mask-AP和57.3的box-AP,比现有技术提高了+0.6的mask-AP和+1.5的box-AP。我们进一步证明了复制粘贴可以显著改进LVIS基准。我们的基准模型在稀有类别上比LVIS 2020挑战赛优胜项目高出3.6%
1.引言
实例分割[22,10]是计算机视觉中的一项重要任务,有许多实际应用。基于最先进的卷积网络[11,56,66]的实例分割模型通常需要大量的数据。同时,注释大型数据集(例如分段[40,21])通常是昂贵和耗时的。例如,COCO的每1000个实例面具花费了22个工时[40]。因此,迫切需要开发新的方法来提高现有实例分割模型的数据效率。
在这里,我们关注数据扩充[49],作为一种显著提高实例分割模型数据效率的简单方法。尽管许多增强方法(如缩放抖动和随机调整大小)已被广泛使用[26,25,20],但它们在本质上更具通用性,并没有专门设计用于实例分割。在类别和形状方面更能感知对象的增强过程可能对实例分割有用。复制粘贴增强[13,12,15]非常适合这种需要。通过将不同尺度的物体粘贴到新的背景图像上,复制粘贴有可能免费创建具有挑战性和新颖性的训练数据。
复制粘贴增强背后的关键思想是将对象从一个图像粘贴到另一个图像。这可以导致新的训练数据的组合数量,具有多种可能性:(1)选择复制实例的源图像对和粘贴实例的目标图像对(2) 选择要从源图像复制的对象实例(3) 选择将复制的实例粘贴到目标图像上的位置。当使用这种数据增强方法时,有大量的选择,这使得我们可以对如何最有效地使用这种技术进行大量的探索。先前的工作[12,15]通过对周围的视觉环境建模,采用了一些方法来决定将附加对象粘贴到何处。相比之下,我们发现一种简单的随机选取对象并将其粘贴到目标图像上的随机位置的策略可以显著提高多个设置的基线。具体地说,它在主干结构、规模抖动程度、训练计划和图像大小的变化方面提供了广泛的设置。
结合大规模的抖动,我们展示了复制粘贴增强在COCO上显著提高了数据效率(图1)。特别是,我们看到数据效率提高了2× 对常用的标准尺度抖动数据进行增强。我们还观察到,当只使用10%的COCO训练数据时,在低数据区获得+10盒AP。
然后,我们证明了复制粘贴增强策略通过自我训练提供了额外的收益[44,72],其中我们从地面真实数据中提取实例,并将它们粘贴到带有伪标签的未标记数据上。利用高效的net-B7[55]主干网和NAS-FPN[17]体系结构,我们在COCO测试设备上实现了57.3box-AP和49.1mask-AP,无需增加测试时间。这一结果超过了以前最先进的实例分割模型,如spinnet[11](46.3 mask AP)和ResNeXt-101-64x4d,并增加了测试时间[43](48.5 mask AP)。性能也超过了EfficientDet-D7x-1536[56](55.1 box AP)和YOLOv4-P7-1536[60](55.8 box AP)的最新边界盒检测结果,尽管使用了1280而不是1536的较小图像大小。
最后,我们证明了复制粘贴增强可以为LVIS基准中通常使用的两阶段培训过程带来更好的特性[21]。利用copypesset,我们分别对6.1和3.7掩模AP在稀有和常见类别上进行了改进。
复制粘贴增强策略易于插入任何实例分割库,能够有效地利用未标记图像,不产生训练或推理开销。例如,我们用Mask-RCNN进行的实验表明,在训练过程中可以将复制粘贴放入训练中,并且在不发生任何变化的情况下,可以很容易地提高结果,例如48个周期的+1.0ap。
相关工作
数据增强。
与主干架构[35、50、52、27、55]和检测/分割框架[19、18、46、38、26、39]的工作量相比,计算机视觉界对数据增强[49]的关注相对较少。随机作物[36、35、50、52]、颜色抖动[52]、自动/随机增强[6,7]等数据增强在图像分类[27,55]、自我监督学习[28、24、5]和ImageNet[47]基准上的半监督学习[63]等方面发挥了重要作用。这些增强在本质上更为通用,主要用于编码对数据变换的不变性,这一原理非常适合图像分类[47]。
混合图像增强。
与编码数据变换不变性的增强相比,存在一类增强,将不同图像中包含的信息与对ground真相标签进行适当更改的信息混合在一起。一个典型的例子是混合数据增强[65]方法,它为输入像素和输出标签的凸组合创建新的数据点。已经有了混合的适应性,例如CutMix[64],它粘贴图像的矩形作物,而不是混合所有像素。混合和剪切混合在目标检测中也有应用[68]。约洛夫4[1]中所采用的马赛克数据增强方法与CutMix有关,因为一种新的复合图像是多个单独图像的矩形网格及其地面真实。虽然混合、CutMix和马赛克在组合多个图像或其裁剪版本以创建新的培训数据方面很有用,但它们仍然不知道对象,而且还没有专门为实例分割任务设计。
复制粘贴增强。
复制粘贴增强。
以对象感知的方式组合来自多个图像的信息的一种简单方法是从一个图像复制对象实例并将它们粘贴到另一个图像上。复制粘贴类似于mixup和CutMix,但仅复制与对象对应的精确像素,而不是对象边界框中的所有像素。与上下文复制粘贴[12]和InstaBoost[15]相比,我们工作中的一个关键区别是,我们不需要对周围的可视上下文建模来放置复制的对象实例。一个简单的随机布局策略可以很好地工作,并在强基线模型上产生可靠的改进。Instaboost[15]与之前的复制粘贴[12]不同,它没有粘贴其他图像的实例,而是jiterr了图像上已经存在的实例。Cut-Paste-and-Learn[13]提出提取对象实例,将它们混合粘贴在不同的背景上,并在原始数据集之外的增强图像上进行训练。我们的工作使用了相同的方法,但有一些不同:(1)我们不使用几何变换(例如旋转),并且发现粘贴实例的高斯模糊是不利的(2) 我们在将一幅图像中包含的对象粘贴到已填充实例的另一幅图像的上下文中研究复制粘贴,其中[13]在具有一组对象实例和背景场景的上下文中研究复制粘贴以提高性能(3) 在半监督学习环境下,我们结合自我训练来研究复制粘贴的效果(4) 我们在广泛使用的COCO和LVIS数据集上对Copy-Paste进行了基准测试和深入研究,而Cut-Paste和Learn使用的是GMU数据集[16]。本文的一个重要贡献是展示了复制粘贴在COCO和LVIS实例分割模型中的应用。
实例分割。
实例分割[22,23]是一个具有挑战性的计算机视觉问题,它试图检测对象实例并分割每个实例对应的像素。Mask RCNN[26]是一个广泛使用的框架,大多数最先进的方法[66,11,43]都采用了这种方法。COCO数据集是广泛使用的衡量进展的基准。我们报告了COCO基准的最新结果,超过SpineNet[11]2.8 AP,超过探测器[43]0.6 AP
长尾视觉识别。
最近,计算机视觉界开始关注自然图像中物体类别的长尾特性[58,21],其中许多不同的物体类别几乎没有标记图像。在训练深度网络时处理长尾数据的现代方法主要分为两组:数据重采样[41,21,61]和丢失重加权[30,8,3,53,37,45]。其他更复杂的学习方法(如元学习[62,29,32]、因果推理[57]、贝叶斯方法[34]等)也用于处理长尾数据。最近的工作[9,3,33,70,37]指出了两阶段训练策略的有效性,将特征学习和再平衡阶段分开,因为带再平衡策略的端到端训练可能不利于特征学习。Oksuz等人[42]对目标检测中的数据不平衡进行了更全面的总结。我们的工作表明,简单的复制粘贴数据增强在LVIS基准的单阶段和两阶段训练中都有显著的效果,特别是对于稀有对象类别。
3. 方法
我们使用复制粘贴生成新数据的方法非常简单。我们随机选取两幅图像,对每幅图像应用随机尺度抖动和随机水平翻转。然后,我们从其中一幅图像中随机选择一个对象子集,并将它们粘贴到另一幅图像上。最后,我们相应地调整地面真值注释:移除完全遮挡的物体,更新部分遮挡物体的遮罩和边界框。
与[15,12]不同的是,我们没有对周围环境进行建模,因此,生成的图像在对象的共现或对象的相关比例方面可能与真实图像非常不同。例如,长颈鹿和足球运动员的规模非常不同,可以出现在彼此旁边(见图2)。
混合粘贴的对象。
为了将新对象合成一幅图像,我们计算了二值掩模(α) 使用地面真值注释对粘贴对象进行分类,并将新图像计算为I1× α + 十二× (1− α) 其中I1是粘贴的图像,I2是主图像。为了平滑粘贴对象的边缘,我们对其应用高斯滤波器α 类似于[13]中的“混合”。但与文献[13]不同的是,我们还发现,简单的不混合作曲也有类似的表现。
大规模抖动。
我们在整个文本中使用了两种不同类型的增强方法和复制粘贴:标准规模抖动(SSJ)和大规模抖动(LSJ)。这些方法随机调整图像大小和裁剪图像。这两种方法的图示如图3所示。在我们的实验中,我们观察到,大规模抖动产生的性能比标准规模抖动在大多数以前的工作中使用显着改善。
自我训练复制粘贴。
除了研究有监督数据上的复制粘贴,我们还将其作为一种合并其他未标记图像的方法进行了实验。我们的自训练复制粘贴过程如下:(1)对标记数据进行复制粘贴增强,训练有监督的模型;(2)对未标记数据生成伪标记;(3)将地面真值实例粘贴到伪标记和有监督的标记图像中,并在此新数据上训练模型。
实验
实验装置
建筑。
我们使用带有EfficientNet[55]或ResNet[27]的Mask R-CNN[26]作为主干架构。我们还采用特征金字塔网络[38]进行多尺度特征融合。我们使用从P2到P6的金字塔级别,锚定大小为8× 每像素2 l和3个锚。我们最强的模型使用Cascade R-CNN[2],EfficientNet-B7作为主干,NAS-FPN[17]作为从P3到P7的特征金字塔。锚定尺寸为4× 我们每像素有9个锚。我们的NAS-FPN模型使用5个重复,我们用ResNet瓶颈块替换卷积层[27]。
训练参数。
所有模型都使用同步批量归一化[31,20]进行训练,批量大小为256,权重衰减为4e-5。我们使用0.32的学习率和阶跃学习率衰减[25]。在训练开始时,学习率在前1000个步骤中从0.0032线性增加到0.32。我们将学习率衰减为训练步骤总数的0.9、0.95和0.975个分数。我们从一个ImageNet检查点初始化我们最大模型的主干,该检查点通过自我训练[63]预先训练,以加快训练速度。除非另有说明,所有其他结果均来自随机初始化的模型。此外,除非另有说明,否则我们使用大规模抖动增强来训练模型。在我们的实验中,对于所有不同的扩充和数据集大小,我们允许每个模型进行训练,直到收敛(即验证集性能不再提高)。例如,使用大规模抖动和复制粘贴增强从头开始训练模型需要576个历元,而仅使用标准规模抖动的训练需要96个历元。对于自训练实验,我们将批大小加倍到512,同时我们保持所有其他超参数不变,除了我们的最大模型由于内存限制而保留256的批大小。
数据集。
我们使用COCO数据集[40],它有118k个训练图像。对于自训练实验,我们使用未标记的COCO数据集(120k图像)和Objects365数据集[48](610k图像)作为未标记图像。对于迁移学习实验,我们在COCO数据集上预先训练模型,然后在Pascal VOC数据集上进行微调[14]。对于语义分割,我们在PASCAL VOC 2012分割数据集的训练集(1.5k图像)上训练我们的模型。在检测方面,我们对PASCAL VOC 2007和PASCAL VOC 2012的trainval集进行了训练,还对LVIS v1.0(100k训练图像)上的拷贝粘贴进行了基准测试,并对LVIS v1.0 val(20k图像)上的结果进行了报告。LVIS有1203个类来模拟自然图像中类的长尾分布。
4.2. 复制粘贴对训练配置非常健壮
在本节中,我们将展示复制粘贴是一种强大的数据扩充方法,它在各种训练迭代、模型和训练超参数中都是健壮的。
对主干初始化的健壮性。
训练掩码R-CNN的通常做法是用ImageNet预先训练的检查点初始化主干。然而,He等人[25]和Zoph等人[72]表明,通过随机初始化训练的模型在较长时间的训练中具有相似或更好的性能。ImageNet预训练中的训练模型具有强大的数据增强功能(即RandAugment[7]),在COCO上显示最多1个AP会影响性能。图4(左)演示了复制粘贴在两种设置中都是相加的,我们使用复制粘贴增强和随机初始化获得了最佳结果。
对培训计划的鲁棒性。
在文献中,面罩R-CNN的典型训练计划只有24(2)×) 或36个时代(3×) [25, 26, 15]. 然而,最新的研究结果表明,长时间的训练有助于在COCO上训练目标检测模型[72,56,11]。图4显示,对于典型的培训计划2,我们可以从复制粘贴中获得收益× 或3× 随着训练时间的增加,收益也在增加。这表明,copyplaste是一种非常实用的数据扩充,因为我们不需要更长的培训时间来看到它的好处。
复制粘贴是对大规模抖动增强的补充。
随机尺度抖动(Random scale jittering)是一种强大的数据增强技术,在计算机视觉模型训练中得到了广泛的应用。文献中尺度抖动的标准范围是0.8到1.25[39,25,6,15]。然而,使用范围为0.1到2.0[56,11]的更大范围抖动和更长时间的训练来增强数据可以显著提高性能(见图4,右图)。图5演示了复制粘贴对标准和大规模抖动增强都是附加的,我们在标准规模抖动的基础上得到了更高的提升。另一方面,如图5所示,当与大规模抖动一起使用时,mixup[65,68]数据增强没有帮助。
复制粘贴可以跨主干体系结构和图像大小工作。
最后,我们用ResNet50和ResNet-101[27]的标准主干架构以及EfficientNet-B7[55]的最新架构演示了复制粘贴帮助模型。我们用这些主干训练模型,图像大小为640×640, 1024×1024或1280×1280.表1显示,对于所有模型,我们都比使用大规模抖动训练的强基线得到了显著的改进。在6个具有不同主干和图像大小的模型中,复制粘贴在大规模抖动的基础上平均提高了1.3盒AP和0.8掩模AP。
4.3复制粘贴有助于提高数据效率
在本节中,我们将展示复制粘贴在各种数据集大小上的帮助,并有助于提高数据效率。图5显示,拷贝粘贴的增加总是有助于椰子的所有部分。拷贝粘贴在低数据区(COCO的10%)最有帮助,在SSJ上产生6.9盒AP改进,在LSJ上产生4.8盒AP改进。另一方面,混音只在低数据区有用。复制粘贴也大大有助于提高数据效率:在75%的COCO上使用复制粘贴和LSJ训练的模型与在100%的COCO上使用LSJ训练的模型具有相似的AP。
4.4. 复制粘贴和自我训练是相加的
在本节中,我们将演示类似于[63,72]的标准自训练方法和复制粘贴可以结合在一起,以利用未标记的数据。复制粘贴和自我训练分别比48.5箱AP的基线值增加1.5箱AP(见表2)。
为了将自学习和复制粘贴相结合,我们首先使用一个经过复制粘贴训练的有监督的教师模型来生成未标记数据的伪标签。接下来我们从COCO中提取地面真值对象,并将它们粘贴到伪标记图像和COCO图像中。最后,我们在所有这些图像上训练学生模型。通过这种设置,我们实现了51.4箱AP,比基线提高了2.9 AP。
要粘贴的数据。
在我们的自我训练设置中,一半来自有监督的COCO数据(120k图像),另一半来自伪标记数据(110k图像来自未标记的COCO,610k图像来自Objects365)。表3给出了在训练图像的不同部分粘贴COCO实例的结果。与粘贴到COCO相比,粘贴到伪标记数据会产生更大的改进。由于伪标记集中的图像数量较大,因此使用变化较大的图像作为背景有助于复制粘贴。当我们在COCO和伪标记图像上粘贴COCO实例时,我们获得了超过自训练的最大增益(+1.4 box AP和+1.0 mask AP)。
要从中复制的数据。
我们还探索了另一种使用复制粘贴的方法,通过将未标记数据集中的伪标记对象直接粘贴到COCO标记数据集中来合并额外的数据。不幸的是,与粘贴COCO地面真实物体相比,这个设置没有显示出额外的AP改进。
4.5. 复制粘贴提高可可国家的最新水平
接下来我们研究复制粘贴是否可以改进COCO上最先进的实例分割方法。表4显示了在一个强大的54.8盒AP COCO模型上应用复制粘贴的结果。此表旨在作为最先进性能的参考。3为了进行严格的比较,我们注意到模型需要使用相同的代码库、训练数据和训练设置进行评估,如学习率计划、权重衰减、数据预处理和增强、参数和失败控制,体系结构正则化[59]、训练和推理速度等。该表的目标是显示复制粘贴增强的好处及其自我训练的附加增益。我们的基线模型是一个级联掩码RCNN,具有高效的ET-B7主干和NAS-FPN。我们观察到使用拷贝粘贴时+1.2盒AP和+0.5掩模AP的改善。结合使用未标记COCO和未标记Objects365[48]进行伪标记的自我训练,我们看到2.5 box AP和2.2 mask AP的进一步改进,在COCO test dev上获得了57.3 box AP和49.1 mask AP的强大性能,而没有增加测试时间和模型集成。
4.6. 复制粘贴为PASCAL检测和分割生成更好的表示
前面我们已经演示了简单的拷贝粘贴增强在实例分割上提供的改进的性能。在这一节中,我们研究了用COCO上的拷贝粘贴训练的预先训练的实例分割模型的迁移学习性能。我们在pascalvoc2007数据集上进行迁移学习实验。表5显示了在PASCAL检测中,学习的复制粘贴模型与基线模型相比是如何传递的。表6给出了PASCAL语义切分的迁移学习结果。在PASCAL检测和PASCAL语义切分两方面,我们发现用拷贝粘贴转移训练的模型比基线模型更适合微调。
4.7. 复制粘贴在LVIS上提供了强大的收益
我们对LVIS数据集的Copy-Paste进行基准测试,以了解它在具有1203个类的长尾分布的数据集上的性能。LVIS基准通常使用两种不同的训练范式:(1)单阶段,直接在LVIS数据集上训练检测器;(2)两阶段,第一阶段的模型通过类重新平衡损失进行微调,以帮助处理类不平衡。
复制粘贴改善单阶段LVIS训练。
单阶段训练模式与COCO上的copyplaste设置非常相似。除了标准的培训设置外,还使用了一些方法来处理LVIS上的班级不平衡问题。一种常用的方法是从[21]中重复因子抽样(RFS),t=0.001。该方法通过对含有稀有类的图像进行过采样来解决LVIS上的大类不平衡问题。表8显示了在强单阶段LVIS基线上应用复制粘贴的结果。我们使用EfficientNet-B7 FPN和640×640输入大小,使用256批大小随机初始化180k步,从头开始训练模型。正如[21]所建议的,我们将每幅图像的检测次数增加到300次,并将分数阈值降低到0。我们观察到,复制粘贴增强在AP、APc和APf上优于RFS,但在APr(稀有类的AP)上性能较差。最好的整体效果来自于结合RFS和拷贝粘贴增强,实现了+2.4ap和+8.7apr的提升。复制粘贴改善两阶段LVIS训练。
两阶段训练被广泛采用来解决数据不平衡问题,并在LVIS上获得良好的性能[37,45,54]。我们的目的是研究复制粘贴在这两个阶段的设置效果。我们的两阶段训练如下:首先我们用标准的训练技术训练目标检测器(即与我们的单阶段训练相同),然后我们使用类平衡损失对第一阶段训练的模型进行微调[8]。类的权重由(1)计算− β)/(1− β n) ,其中n是类的实例数β = 0.999. 4在第二阶段微调中,我们用3× 计划并仅使用分类损失更新Mask R-CNN中的最终分类层。从表9中的mask AP结果中,我们可以看到使用Copy-Paste训练的模型对于低炮类学习更好的特性(APr为+2.3,APc为+2.6)。有趣的是,我们发现RFS在单阶段训练中是非常有用的,而且在两阶段训练中,RFS与Copy-Paste是相加的。这一发现的一个可能解释是,使用RFS学习的特征比使用原始LVIS数据集学习的特征更差。我们留下了一个更详细的调查之间的权衡RFS和数据增强在两个阶段的培训,为今后的工作。
与最新技术的比较。
此外,我们将我们的两阶段模型与表7中LVIS5的最新方法进行了比较。令人惊讶的是,我们最小的模型ResNet50 FPN,经过复制粘贴训练,其性能优于ResNeXt-101-32的强基线cRT[33]×8d主干。
使用复制粘贴训练的EfficientNetB7 NAS-FPN模型(不含级联6)在整体掩模AP和无测试时间增加的盒AP上与LVIS challenge 2020优胜者的结果相当。此外,它实现了32.1面具4月为罕见的类别超过了3.6面具4月的LVIS挑战获胜条目。
5.结论
数据增强是许多视觉系统的核心。本文对复制粘贴数据增强方法进行了深入的研究,发现该方法具有很强的鲁棒性和有效性。Copy-Paste在多个实验设置中表现良好,并且在COCO和LVIS实例分割基准上提供了强大基线之上的显著改进。复制粘贴增强策略简单,易于插入任何实例分割代码库,且不增加训练成本和推理时间。我们还表明,复制粘贴是有用的,纳入额外的未标记的图像在训练过程中,是加上成功的自我训练技术。我们希望,令人信服的经验证据,其好处,使复制粘贴增强的标准增强程序时,训练实例分割模型。
A.复制粘贴法
在本节中,我们将介绍复制粘贴方法的烧蚀。我们采用掩模R-CNN高效ETB7 FPN结构,图像尺寸为640×我们的实验需要640美元。
粘贴对象的子集。
在我们的方法中,我们将对象的随机子集从一个图像粘贴到另一个图像上。表10显示,虽然我们只将一个随机对象或一幅图像的所有对象粘贴到另一幅图像中得到了改进,但通过粘贴对象的随机子集,我们得到了最好的改进。这表明粘贴对象子集所引入的随机性是有帮助的。
混合。
在我们的实验中,我们使用alpha混合平滑粘贴对象的边缘(见第3节)。表10表明,这不是一个重要的步骤,我们在没有任何混合的情况下得到相同的结果,而[13]发现混合对于强大的性能至关重要。
缩放抖动。
在这项工作中,我们展示了通过结合大规模抖动和复制粘贴,我们比标准规模抖动的基线得到了显著的改进(图1)。在复制粘贴方法中,我们对粘贴的图像(粘贴对象从中复制的图像)和主图像应用独立的随机比例抖动。在表11中,我们研究了主图像和粘贴图像上大尺度抖动的重要性。从表11可以看出,大尺度抖动带来的大部分改进来自于对主图像的应用,而增加粘贴图像的尺度抖动范围只得到了轻微的改进(0.3框AP和0.2掩模AP)
B.复制粘贴提供了更困难的椰子类增益
图6显示了在COCO数据集上应用复制粘贴获得的每个类别的相对AP增益。CopyPaste提高了除吹风机以外所有课程的AP。在图6中,类是基于每个类别的基线AP进行排序的。可以看到,大多数改进最大的类都在左侧(较低的基线AP),这表明复制粘贴对最难的类帮助最大。