论文Pyramid Attention Network for Semantic Segmentation 解读

论文地址：https://arxiv.org/abs/1805.10180
Face++, 北理工, 北大近期联合发表的一篇关于语义分割的的金字塔注意力模型。

这个模型适用于2D网络，因为里面用到了Global Pooling, 这个操作不适合3D网络，所以Keras里面也没有相应的3D模块，只有1D和2D的GlobalAveragePooling, GlobalMaxPooling。而且在这两个中作者发现GlobalAveragePooling的效果更好。

这个模型主要由两部分组成：Feature Pyramid Attention(FPA)和 Global Attention Upsample(GAU)

其中FPA和deeplab里面的Spatial Pyramid Pooling很相似

FPA.png

全局注意力上采样模块 (Global Attention Upsample，GAU)，对低层次特征执行 3×3 的卷积操作，以减少 CNN 特征图的通道数。从高层次特征生成的全局上下文信息依次经过 1×1 卷积、批量归一化和非线性变换操作，然后再与低层次特征相乘。最后，高层次特征与加权后的低层次特征相加并进行逐步的上采样过程。

GAU.png

整体架构结合特征金字塔注意力模块 (FPA) 和全局注意力上采样模块 (GAU)

FAN.png

对这两个模块的作用作者做了总结：FPA 模块能够提供像素级注意力信息并通过金字塔结构来扩大感受野的范围。GAU 模块能够利用高层次特征图来指导低层次特征恢复图像像素的定位。

最后的实验结果表明，这篇论文所提出的方法在 PASCAL VOC 2012 语义分割任务实现了当前最佳的性能。

代码实现：

    def Inception_dilation(self, inputs, f):        
        conv3 = Conv2D(f, (3, 3), padding='same', activation= 'selu', kernel_initializer = 'he_normal')(inputs)

        conv5 = Conv2D(f, (3, 3), padding='same', dilation_rate = (2, 2), activation= 'selu', kernel_initializer = 'he_normal')(inputs)

        conv7 = Conv2D(f, (3, 3), padding='same', dilation_rate = (4, 4), activation= 'selu', kernel_initializer = 'he_normal')(inputs)


        conv9 = Conv2D(f, (3, 3), padding='same', dilation_rate = (6, 6), activation= 'selu', kernel_initializer = 'he_normal')(inputs)
      
        merge2 = merge([conv3, conv5, conv7, conv9], mode='concat', concat_axis=3)
        return merge2
    def FeaturePyramidAttention(self, inputs, f):
        #f:通道数量
        
        conv1 = Conv2D(f, (1, 1), padding='same', activation= 'selu', kernel_initializer = 'he_normal')(inputs)
        
        conv7 = Conv2D(f, (3, 3), padding='same', dilation_rate = (4, 4), activation= 'selu', kernel_initializer = 'he_normal')(inputs)
        pool1 = MaxPooling2D(pool_size=(4, 4))(conv7)
        # conv7 = Conv2D(f, (3, 3), padding='same', dilation_rate = (4, 4), activation= 'selu', kernel_initializer = 'he_normal')(conv7)
        
        conv5 = Conv2D(f, (3, 3), padding='same', dilation_rate = (3, 3), activation= 'selu', kernel_initializer = 'he_normal')(pool1)
        pool2 = MaxPooling2D(pool_size=(4, 4))(conv5)
        # conv5 = Conv2D(f, (3, 3), padding='same', dilation_rate = (3, 3), activation= 'selu', kernel_initializer = 'he_normal')(conv5)
        
        conv3 = Conv2D(f, (3, 3), padding='same', dilation_rate = (2, 2), activation= 'selu', kernel_initializer = 'he_normal')(pool2)
        pool3 = MaxPooling2D(pool_size=(4, 4))(conv3)
        conv2 = Conv2D(f, (3, 3), padding='same', activation= 'selu', kernel_initializer = 'he_normal')(pool3)
        
        up1 = UpSampling2D(size=(4, 4))(conv2)
        up1 = Conv2D(f, (1, 1), padding='same', activation= 'selu', kernel_initializer = 'he_normal')(up1)
        up1 = merge([up1, conv3], mode='concat', concat_axis=3)
        
        up2 = UpSampling2D(size=(4, 4))(up1)
        up2 = Conv2D(f, (1, 1), padding='same', activation= 'selu', kernel_initializer = 'he_normal')(up2)
        up2 = merge([up2, conv5], mode='concat', concat_axis=3)

        up3 = UpSampling2D(size=(4, 4))(up2)
        up3 = Conv2D(f, (1, 1), padding='same', activation= 'selu', kernel_initializer = 'he_normal')(up3)
        up3 = merge([up3, conv7], mode='concat', concat_axis=3)
        out = merge([up3, conv1], mode='concat', concat_axis=3)
        return out
    
    def GlobalAttentionUpsample(self, inputs_low, inputs_high, f):
        #inputs_low：低层次信息输入
        #inputs_high：高层次信息输入
        print('inputs_high.shape---------',inputs_high.shape)
        conv3 = Conv2D(f*3, (3, 3), padding='same', activation= 'selu', kernel_initializer = 'he_normal')(inputs_low)
        gap = GlobalAveragePooling2D()(inputs_high)
        print('gap.shape------------', gap.shape)
#        conv1 = Conv2D(f*4, (1, 1), padding='same', activation= 'selu', kernel_initializer = 'he_normal')(gap)
        conv1conv3 = Multiply()([gap, conv3])

        out = merge([conv1conv3, inputs_high], mode='concat', concat_axis=3)
        return out
    def PAN(self):
        
        inputs = Input((self.img_rows, self.img_cols,1))
        
        conv1 = self.Inception_dilation(inputs, 4)
        res1 = merge([inputs, conv1], mode='concat', concat_axis=3)
        conv2 = self.Inception_dilation(res1, 4)
        conv2 = self.Inception_dilation(conv2, 4)
        res2 = merge([res1, conv2], mode='concat', concat_axis=3)
        conv3 = self.Inception_dilation(res2, 4)
        conv3 = self.Inception_dilation(conv3, 4)
        res3 = merge([res2, conv3], mode='concat', concat_axis=3)
        conv4 = self.Inception_dilation(res3, 4)
        conv4 = self.Inception_dilation(conv4, 4)
        #res4 = merge([res3, conv4], mode='concat', concat_axis=3)
        
        
        FPA = self.FeaturePyramidAttention(conv4, 4)
        print('FPA.shape', FPA.shape)
        print('conv3.shape', conv3.shape)
        GAU1 = self.GlobalAttentionUpsample(conv3, FPA, 4)
        GF1 = merge([FPA, GAU1], mode='concat', concat_axis=3)
        
        GAU2 = self.GlobalAttentionUpsample(conv2, GF1, 12)
        GF2 = merge([GF1, GAU2], mode='concat', concat_axis=3)
        
        GAU3 = self.GlobalAttentionUpsample(conv1, GF2, 36)
        GF3 = merge([GF2, GAU3], mode='concat', concat_axis=3)
       

        conv8 = Conv2D(4, (1, 1), padding='same', activation= 'selu', kernel_initializer = 'he_normal')(GF3)
#        conv9 = Conv2D(2, (3, 3, 3), padding='same', activation= 'selu', kernel_initializer = 'he_normal')(conv8)
        print("conv8 shape:", conv8.shape)
        conv9 = Conv2D(1, 1, activation = 'sigmoid')(conv8)
        print("conv9 shape:", conv9.shape)
        
        model = Model(inputs=inputs, outputs=conv9)
#        plot_model(model, to_file = 'model_3dxception.png', show_shapes = True)         
        parallel_model = multi_gpu_model(model, gpus=2)
        parallel_model.compile(optimizer=Adam(lr=0.001), loss=self.dice_coef_loss, metrics=['accuracy'])
        with open('seg_liver2D_pan.json', 'w') as files:
            files.write(model.to_json())
        return parallel_model

注：根据Keras最新版本，代码中merge操作建议改成concatenate
例如：

up2 = merge([up2, conv5], mode='concat', concat_axis=3)
#改为
up2 = concatenate([up2, conv5], axis=3)

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 200,527评论 5赞 470
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,314评论 2赞 377
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 147,535评论 0赞 332
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,006评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 62,961评论 5赞 360
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,220评论 1赞 277
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,664评论 3赞 392
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,351评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,481评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,397评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,443评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,123评论 3赞 315
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,713评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,801评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,010评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,494评论 2赞 346
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,075评论 2赞 341

论文Pyramid Attention Network for Semantic Segmentation 解读

推荐阅读更多精彩内容