《Mask2Former》算法详解

文章地址：《Masked-attention Mask Transformer for Universal Image Segmentation》
代码地址：https://github.com/facebookresearch/Mask2Former

文章为发表在CVPR2022的一篇文章。从名字可以看出文章像提出一个可以统一处理各种分割任务（全景分割、语义分割、实例分割）的网络。

这里稍微通俗的解释一下上述的几个分割任务：
全景分割：分割的结果有背景概念（天空、大海），有实例概念（person1、person2、person2）。
语义分割：只有类别概念，比如上述的person1、person2、person3都属于people这一类，不区分每个实例。且包含背景类别的识别。
实例分割：只有前景类别的概念，例如只有人、猫、狗等类别，没有天空大海这一类背景类别。且前景类别是有实例概念的。

更详细一点的说，在coco数据集里面定义，背景类称为stuff类别，这一类类别是没有边界的概念，例如一张图只有一片天空。前景类别称为things类别。

本文提出的网络就是可以一次性处理上述几个分割任务，而不用向之前的网络，一个任务去处理特定的一种任务。如下图所示

1.png

上图不仅可以看出不同任务的示意，还可以看出文章的网络在各个任务上表现都是SOTA的。

一、网络结构

文章采用的网络架构与MaskFormer 一致的。该类架构由三部分组成，一个backbone用于提取图片的特征，一个pixel decoder用于将主干网络提前的特征进行上采样生成高分辨率的图像特征，一个transformer decoder用于根据图像特征来处理object queries。最终网络根据pixel decoder输出的高分辨率的图像特征和transformer decoder输出的object queries生成最终的预测mask。
该结构能够很好的处理各种分割任务，原因就是输出对每个mask预测一个类别，这样不同的任务只是定义的不同类别而已。

具体的Mask2Former的示意图如下图所示，左边为整体的框架，右边为Transformer decoder with masked attention结构:

2.png

1.1 Transformer decoder with masked attention

有文章研究全局的特征信息对图像分割任务是非常重要的，但是也有文章证明对于transformer-based的结构来说，全局的特征信息会导致cross-attention收敛变慢，因为cross-attention需要很多轮的训练才能关注到需要关注的对应的物体区域上。

文章假设局部特征已经可以很好的去更新query feature了，而全局特征可以通过self-attention结构来学习。基于这假设，文章提出了masked attetion结构。

标准的cross-attetion结构用公式表示如下所示：
$X_l = softmax(Q_lK^T_l)V_l + X_{l-1}$
其中，l表示当前层的索引， $X_l\in R^{N\times C}$ 表示l层的N个C维的query features，而 $Q_l=f_{Q}(X_{l-1})\in R^{N\times C}$ . $X_0$ 表示Transformer decoder的输入。 $K_l,V_l\in R^{H_l W_l \times C}$ 为图像特征经过 $f_K({\cdot})$ 和 $f_V({\cdot})$ 变化后的结果，其中 $H_l$ 和 $W_l$ 是图像特征的分辨率。上述的 $f_Q$ 、 $f_K$ 和 $f_V$ 都是线性变换层。

本文提出的masked attetion模块，用公式表示如下：
$X_l = softmax(M_{l-1}+Q_lK^T_l)V_l + X_{l-1}$
其中attetion mask M_{l-1}中位置(x,y)的值用如下公式计算得到：
$M_{l-1}(x, y)=\left\{ \begin{aligned} 0 \quad if M_{l-1}(x,y) = 1\\ -\infty \quad otherwise \end{aligned} \right.$
这里 $M_{l-1}\in {0, 1}^{N\times H_l W_l}$ 是根据阈值为0.5对Transformer decoder l-1层的输出进行resize后的二值化的结果。 resize后的分辨率大小和 $K_l$ 一样。 $M_0$ 是通过 $X_0$ 二值化得到的。

1.2 High-resolution features

高分辨率的特征能够改善模型的效果，但是也每次都采用高分辨率的特征对于计算量要求也非常大。为了提升效率，文章输入给Transformer decoder层的特征采用不同分辨率的图片特征。
更详细说明，pixel decoder输出的图像特征大小分别为原图的1/32, 1/16, 1/8。对于每个分辨率的图片，在给到Transformer decoder之前，会加入sinusoidal positional embedding $e_{pos}\in R^{H_l W_l \times C}$ 和一个可学习的scale-level embedding $e_{lvl}\in R^{1\times C}$ 。Transformer decoder对这种三层Transformer decoder结构重复L次。

1.3 Optimization improvements

这里针对普通的Transformer decoder layer进行改进。普通的Transformer decoder layer处理query features的顺序为self-attention module, cross-attention module，feed-forward network。query feature( $X_0$ )是初始化为0的特征。dropout用在residual connections和attention maps结构中。

文章对上述三点进行改进，文章认为self-attention只有图片特征的输入，没啥信息可以学习，为了提高计算效率，将self-attention、cross-attention调换了顺序。query feature( $X_0$ )变成可学习的特征。去除dropout。

二、提升训练效率

因为对高分辨率的mask进行预测，对显存的消耗很大，例如上一版的MaskFormer一个图片训练需要32G的显存。
受到PoinRend和Implicit PointRend文章的启发，训练分割任务的网络时，不需要计算整个mask的loss，只需要计算K个随机采样点的loss即可。
在训练时，有matching-loss（Transformer结构预测类别时特有的匹配loss）和final loss（匹配好后，计算预测结果和gt的loss）。
在计算matching-loss时，采用均匀采样采相同的K个点计算loss。
在计算final loss时，采用importance sampling，给每个不同的预测结果采不同的K个点进行计算loss。
这样的loss计算方式可以减少三倍的显存占用量，从而提高网络训练效率。

三、网络具体实现

Pixel decoder. 采用multi-scale deformable attention（MSDeformAttn）做为pixel decoder结构，采用6层MSDeformAttn处理1/8,1/16,1/32大小的图片feature，并用一个上采样生成1/4的图片feature。
Transformer decoder. L=3（共9层），100个queries(N=100), 在Transformer decoder layer的每个中间层度有一个辅助loss（9层的输出都有一个辅助loss来指导学习1.1中的M）
Loss weights. 对于mask loss，文中采用binary cross-entropy loss和 dice loss一起，即 $L_{mask}=\lambda_{ce}L_{ce}+\lambda_{dice}L_{dice}$ ，其中 $\lambda_{ce}=5.0, \lambda_{dice}=5.0$ . final loss是mask loss和classfication loss一起计算，即 $L_{mask}+\lambda_{cls}L_{cls}$ ，其中当有匹配的gt时 $\lambda_{cls}=2.0$ ，当匹配的为no object时， $\lambda_{cls}=0.1$
post-processing. 对于全景和语义分割来说，后处理方式同MaskFormer，输出对应的mask以及其对应的类别。对于实例分割，为了输出对应实例的分割，采用类别的分数和mask的平均分数相乘得到每个实例的分数。

到这里该算法的基本内容都介绍完了，具体的训练参数还有训练数据以及数据结果可以查看文章找到更详细的信息。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,839评论 6赞 482
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,543评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 153,116评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,371评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,384评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,111评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,416评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,053评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,558评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,007评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,117评论 1赞 334
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,756评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,324评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,315评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,539评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,578评论 2赞 355
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,877评论 2赞 345