CCNet: Criss-Cross Attention for Semantic Segmentation

论文地址：https://arxiv.org/abs/1811.11721
论文代码：https://github.com/speedinghzl/CCNet

1. 摘要

本文提出了一个CCNet,具有以下优点1）GPU内存友好。与non-local块相比，循环的交叉注意模块需要较少的GPU内存使用。2）计算效率高。在计算远程依赖关系时，反复出现的交叉注意显著减少了约85%的non-local块。3）最先进的性能。
图1.两种基于注意力的上下文聚合方法的图表。（a）对于每个位置（例如蓝色），non-local模块生成具有 HxW 权重（绿色）的密集注意力图。（b）对于每个位置（例如蓝色），十字交叉注意模块生成稀疏的注意力图，其仅具有H+W-1权重。在重复操作之后，最终输出特征图中的每个位置（例如红色）可以捕获来自所有像素的长程依赖性。为清晰显示，忽略剩余连接。
贡献
(1) 提出了一个新颖的纵横交叉关注模块，可以利用它以更有效和更有效的方式从远程依赖中捕获上下文信息.
(2) 通过利用两个经常性的交叉关注模块来提出CCNet，在基于细分的基准测试中实现领先的性能，包括Cityscapes，ADE20K和MSCOCO。

2. 引言

金字塔池化中使用空洞卷积：基于扩张卷积的方法收集来自少数周围像素的信息，并且实际上不能生成密集的上下文信息。
金字塔池化中的池化：基于池化的方法以非自适应方式聚合上下文信息，并且所有图像像素采用同构上下文信息，这不满足不同像素需要不同上下文依赖性的要求。
为了生成密集且逐像素的上下文信息，PSANet学习通过预测的注意力映射来聚合每个位置的上下文信息。非局部网络利用自我关注机制，其使得来自任何位置的单个特征能够感知所有其他位置的特征，从而产生更多的功率像素方向表示。这里，特征图中的每个位置通过自适应预测的关注图与所有其他位置连接，从而收集各种范围的上下文信息，参见图1（a）。然而，这些基于注意力的方法需要生成巨大的注意力图来测量每个像素对的关系，其时间和空间的复杂性都是O((HxW)x(HxW))，其中HxW表示输入要素图的空间维度。由于输入特征映射在语义分割任务中始终具有高分辨率，因此基于自注意的方法具有高计算复杂度并占据大量GPU内存。我们认为：是否有一种替代解决方案能够以更有效的方式实现这样的目标？
我们发现采用的当前non-local操作可以替换为两个连续的十字交叉操作，其中每个操作对于特征映射中的每个位置只有稀疏连接（H+W-1）。这促使我们提出纵横交错的关注模块，以在水平和垂直方向上聚合远程像素方面的上下文信息。通过串行堆叠两个纵横交错的注意模块，它可以收集来自所有像素的上下文信息。分解大大降低了O((HxW)x(HxW))到O((HxW)x(H+w-1)的时间和空间复杂度。
具体而言，我们的纵横交错注意模块能够在纵横交错的路径上收集附近和远处的各种信息。如图1所示，non-local模块和十字交叉注意模块都提供具有空间大小HxW的输入特征映射，以分别生成关注映射（上分支）和适配特征映射（下分支）。然后，采用加权和作为聚合方式。在纵横交错注意模块中，特征图中的每个位置（例如，蓝色）通过预测的稀疏注意力图与处于同一行和相同列中的其他位置连接。预测的注意力图在non-local模块中仅具有H+W-1权重而不是HxW。此外，我们提出了反复交叉注意模块来捕获所有像素的远程依赖性。局部特征仅被传递到纵横交错注意模块一次，其在水平和垂直方向上收集上下文信息。十字形注意模块的输出特征图被输入下一个十字交叉注意模块;第二特征图中的每个位置（例如，红色）从所有其他位置收集信息以增强逐像素表示。所有纵横交错的注意模块共享参数以减少额外参数。我们的纵横交叉注意模块可以插入任何完全卷积的神经网络，名为CCNet，以便以端到端的方式进行分割。

3. 方法

我们提供了用于语义分割的CrissCross网络（CCNet）的详细信息。首先，我们介绍我们网络的一般框架。然后，我们将介绍纵横交叉注意模块，该模块在水平和垂直方向上捕获远程上下文信息。最后，为了捕捉密集和全局的背景信息，我们提出了循环的纵横交叉关注模块。

3.1 总体框架

网络架构如图2所示。输入图像通过深度卷积神经网络（DCNN），它以全卷积的方式设计，然后产生一个特征图X.我们将X的空间大小表示为HxW。为了保留更多细节并有效地生成密集特征映射，我们删除了最后两个下采样操作，并在后续卷积层中使用扩张卷积，从而将输出特征映射X的宽度/高度放大到1/8输入图像。
在获得特征映射X之后，我们首先应用卷积层来获得降维的特征映射H，然后，特征映射H将被馈送到纵横交叉关注（CCA）模块并生成新的特征映射H'，它们以纵横交错的方式为每个像素聚合上下文信息。特征映射H'仅聚合水平和垂直方向上的上下文信息，这些信息对于语义分割而言不够强大。为了获得更丰富和更密集的上下文信息，我们再次将特征映射H'提供给十字交叉注意模块，并输出特征映射H''。因此，特征映射H''中的每个位置实际上从所有像素收集信息。之前和之后的两个交叉注意模块共享相同的参数以避免添加太多额外参数。我们将这种经循环结构命名为循环交叉注意力（RCCA）模块。
然后我们将密集的上下文特征H''与本地表示特征X连接起来。接下来是一个或几个卷积层，具有批量归一化和激活特征融合。最后，融合的特征被馈送到分割层以生成最终的分割图。

3.2. Criss-Cross Attention

image.png
通过Affinity操作产生A,操作定义如下：

3.3. Recurrent Criss-Cross Attention

尽管交叉注意模块可以在水平和垂直方向上捕获长距离上下文信息，但是像素和周围像素之间的连接仍然是稀疏的。获取语义分割的密集上下文信息是有帮助的。为实现这一目标，我们基于上述交叉注意模块引入了循环交叉注意力。循环交叉注意模块可以展开到R循环中。在第一个循环中，交叉注意模块将从CNN模型中提取的输入特征映射H和输出特征映射H'为输入，其中H和H'有相同的形状。在第二个循环中，交叉注意模块将H'和输出特征图H''。如图2所示，经常性十字交叉注意模块有两个循环（R = 2），足以从所有像素中获取远程依赖关系，以生成具有密集和丰富上下文信息的新特征映射。
另一种情况是u和θ不在同一行和列中。图4显示了空间维度中上下文信息的传播路径：
一般来说，我们循环交叉注意模块弥补了交叉注意模块的缺陷，无法从所有像素获取密集的上下文信息。与交叉注意模块相比，循环交叉注意模块不会带来额外的参数，并且可以通过较小的计算增量来实现更好的性能。循环交叉注意模块也是一个独立的模块，可以在任何阶段插入任何CNN架构，并以端到端的方式进行优化

4.实验

训练设置：
SGD,lr=1e-2采用poly l更新学习率，动量0.9和权重衰减为1e-4.
数据增强采用随机缩放（从0.75 到2.0）.

最后编辑于：2019.11.12 12:04:53

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,530评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 86,403评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,120评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,770评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,758评论 5赞 367
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,649评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,021评论 3赞 398
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,675评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,931评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,659评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,751评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,410评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,004评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,969评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,042评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,493评论 2赞 343

CCNet: Criss-Cross Attention for Semantic Segmentation

1. 摘要

2. 引言

3. 方法

3.1 总体框架

3.2. Criss-Cross Attention

3.3. Recurrent Criss-Cross Attention

4.实验

推荐阅读更多精彩内容