论文原文:https://arxiv.org/pdf/1805.08403.pdf
完整的图、表及引用见原文,用于学习记录,与有需要的人分享。
摘要
为了提高神经网络的多尺度处理能力,提出了一种自聚焦卷积层用于语义分割。自聚焦层根据处理过的上下文自适应地改变有效接受域的大小,以生成更强大的功能。这是通过并行化具有不同膨胀率的多层卷积层来实现的,并结合一种注意机制,该机制学会将注意力集中在由上下文驱动的最优尺度上。通过共享并行卷积的权值,我们使网络的规模不变,只增加了少量的参数。提出的自聚焦层可以很容易地集成到现有的网络中,提高模型的表示能力。我们评估了盆腔CT多器官分割和MRI脑肿瘤分割的挑战性任务,并取得了很好的效果。
1 介绍
语义分割是医学图像分析中的一个基本问题。非断层分割系统可以改善临床管道,促进对病理的全面评估、治疗计划和疾病进展的监测。它们还可以通过从大规模人群的磁共振图像(MRI)或计算性tomog- raphy (CT)扫描中以高效和可重现的方式提取测量值,促进大规模研究。
为了提高分割算法的性能,需要使用多尺度的上下文[6],同时仍然以像素级精度为目标。多尺度处理提供了详细的线索,如结构的纹理信息,与上下文信息(如结构的环境)相结合,当仅基于局部上下文时,可以促进模糊的决策。请注意,这种机制也是人类视觉系统的一部分,通过中央凹和周围视觉。
大量的研究都在寻找有效的多尺度处理算法。传统方法的概述可以在[6]中找到。类分词系统通常由卷积神经网络驱动(cnn)。为有效捕获图像上下文而提出的各种网络体系结构可以大致分为三类。第一种类型在多尺度上创建一个图像金字塔。图像以不同的分辨率进行降采样和处理。Farabet等人训练了相同的过滤器来对图像的所有这样的版本执行,以实现尺度不变性[5]。相比之下,DeepMedic[9]提出了几种不同尺度的学习专用路径,以使三维CNNs能够以一种计算效率较高的方式从更大的上下文中提取更多的模式。第二种类型使用一种编码器,它逐渐向下采样以捕获更多的上下文,然后是一种解码器,它学会向上采样分段,使用跳过连接[11]组合多尺度上下文。后来的扩展包括U-net[15],它使用一个更大的解码器来学习上采样特性,而不是像[11]中的分段。然而,学习使用解码器进行上采样时,内折线模型的复杂性和计算要求,甚至可能不需要向下采样。最后,在这一思想的驱动下,[3,16]提出了膨胀卷积来处理更大的上下文,而无需对特征图进行降采样。在此基础上,DeepLab[3]引入了空间金字塔池(Aspp)模块,该模块采用不同速率的膨胀卷积并行捕获多尺度信息。来自所有尺度的激活都通过求和或串联天真地融合在一起。
我们提出了自聚焦层,这是一个新的模块,通过学习选择合适的尺度来识别图像中的不同对象,从而增强了CNNs的多尺度处理。我们在自动对焦方面的工作与Aspp有相似之处,因为我们还使用并行扩展卷积过滤器来捕获本地和更全局的上下文。关键的区别在于,自聚焦层不是天真地聚合所有尺度的特性,而是自适应地选择最优尺度,以数据驱动的、学习的方式进行聚焦。特别地,我们的自动对焦模块使用了一个注意力机制[1]来表示每个尺度在处理图像不同位置时的重要性(图1)。自动聚焦还增强了网络的可解释性,因为注意力地图显示了它如何在局部放大或缩小以分割不同的上下文。与[4]中注意力的使用相比,我们的解决方案是模块化的,并且独立于体系结构。
我们在骨盆CT多器官分割和MRI脑肿瘤分割两项任务上对我们的方法进行了广泛的评价和比较。我们证明,由于自聚焦层的自适应性,它能很好地处理这两项任务中的生物变异性,从而提高了一个已建立良好的模型的性能。尽管它很简单,但我们的系统与更复杂的管道具有竞争力,显示了自动对焦机制的潜力。此外,通过替换标准的卷积层,自动对焦可以很容易地集成到现有的体系结构中。
2 方法
2.1 膨胀卷积
由于它们是我们工作的基础,我们在介绍符号时首先介绍了膨胀卷积的基础[3,16]。标准的三维膨胀对流层深度为l,膨胀速率为r,可以表示为一个映射卷积。,,,,,,它可以从Eqn(1)随着输入信号探测的更加稀疏,可以通过增大r l的膨胀来捕获更大的上下文,但细节更少。因此,更大的r l导致“缩小”行为。通常,膨胀率r是一个超参数,为每一层手动设置和固定。当r = 1时,标准卷积是一个特例。下面我们将描述自聚焦机制,该机制自适应地为输入的不同区域选择最佳膨胀率。
2.2 自聚焦卷积层
明确地对图像中的不同对象进行分类可能需要不同的局部和全局信息组合。例如,大型结构可能会更好的分割处理大量接受域φl前花费的细节,而小对象可能需要关注高分辨率的局部信息。因此,静态定义多尺度处理的架构可能不是最优的。我们的自适应解决方案,自聚焦模块,总结在图1中,并在下面形式化。
给出了前一层fl1的激活量,通过K个不同膨胀率的卷积层并行处理得到多尺度信息。它们产生K个张量F r K l(图1(b)),每个张量集具有相同数量的通道c。它们检测K个不同尺度的模式,我们通过引入一个软注意机制[1]以数据驱动的方式合并这些模式。
在该模块中,我们构建了一个处理F l - 1的小型注意网络(图1(a))。在这项工作中,它包括两个卷积层。第一,Conv l,1,应用3×3×3个核,产生的通道数是F l−1(经验选择)中通道数的一半,然后是ReLU激活函数F。第二个Conv l,2,应用1×1×1个滤波器,产生一个K个通道的张量,每个尺度一个。这是紧随其后的是以聪明元素softmaxσ,规范化每个体素的K个激活加起来等于1。因此,通过融合并行扩张卷积的输出,计算出自聚焦层的最终输出,如下图所示:
由于注意图是由全卷积网络预测的,因此每个体素的注意预测是不同的,由图像上下文驱动,以获得最佳的比例选择。
由于该模块是基于K个膨胀卷积层的对位分层结构,因此每个自聚焦层所提供的表征能力的提高都需要一定的计算量。因此,应该寻求一种适当的平衡,我们在第3节对此进行了研究,并取得了很有希望的结果。
尺度不变性:一些解剖结构的大小,如骨骼和器官,可能会有所不同,但整体外观是相当相似的。对其他人来说,尺寸可能与外表有关。例如,发展中的大肿瘤的结构与早期的小肿瘤不同。这表明,规模不变性可以用来规范学习,但必须适当地进行。我们在自动聚焦层共享参数中创建并行过滤器。这使得可训练参数的数量与K无关,只有注意模块在标准卷积上添加参数。因此,每个并行过滤器寻找外观相似但大小不同的模式。因此,网络是自适应尺度不变的,注意机制以数据驱动的方式选择尺度,不像Farabet et al.[5],后者的网络学习不同尺度之间的共享过滤器,但天真地将它们的所有响应连接起来。
2.3 自聚焦神经网络
提出的自聚焦层可以集成到现有的体系结构中,通过替换标准的或膨胀的卷积来提高它们的多尺度处理能力。为了演示这一点,我们选择了具有剩余连接[8]的DeepMedic (Dm)[9]作为起点。Dm使用不同的高分辨率和低分辨率输入路径进行多尺度处理。相反,我们只保留它的高分辨率的途径,并寻求授权与我们的方法。首先,我们通过标准的在最后6个隐藏层中以2的速率展开卷积来扩大其接受域,最终得到作为另一个基线的基本模型。现在,我们通过将Basic的最后n个隐藏层转换为自动聚焦层(表示为“Afn-n”)来定义afnet家族,其中n∈{1,…,6}。图2为AFNet-4。提出的afnet是端到端训练的。
3 评估
我们广泛评价afnet在多器官和脑tu- mor分割中的作用。具体来说,我们执行的两项任务是:(1)一个研究,在这个研究中,我们依次将自动聚焦添加到基本网络的更多层,以探索其影响;(2)afnet与基线的比较。最后,(3)我们在公共基准BRATS’15上进行了评估,结果表明,我们的方法无论简单与否,都能与最先进的管道相媲美,显示了其潜力。
基线:我们将afnet与之前定义的基本模型进行比较,以显示自聚焦层对标准膨胀卷积的贡献。同样,我们将DeepMedic[9](记作Dm)与我们的自适应多尺度处理与静态多尺度路径进行比较。最后,我们在Basic之上放置了一个Aspp模块[3],并与Afn-1进行了比较,结果表明了注意机制的贡献。Aspp-c和Aspp-s分别通过级联和求和的方式对Aspp激活物进行融合。PyTorch框架中的源代码和预培训模型可以在线访问:https://github.com/yaq007/autofocs-layer。
3.1 数据集
材料:我们使用两个骨盆CT扫描数据库,收集了不同临床中心诊断为前列腺癌的患者。第一个称为Add,包含86个扫描,不同的扫描数量分别为512x512片和3mm的片间间距。Uw由34个扫描512x512个切片组成,切片间距为1mm。肿瘤专家在所有图像中手工描绘了以下结构:前列腺、精囊(SV)、膀胱、直肠、左股骨和右股骨。每一次扫描都被归一化,使其强度均值和单位方差为零。为了对模型的泛化进行严格的检验,我们利用加法数据对模型进行多类问题的训练,然后利用加法数据对模型进行估计。
配置细节:使用ADAM优化器对Basic、Aspp和Afn模型进行了300个纪元的训练,以最小化软骰子损失[13]。每批由7个大小为75 3的片段组成。学习速率从0.001开始,经过200个纪元后降低到0.0001。我们使用膨胀率2,6,10和14 (K = 4)的Aspp和自动聚焦模块。用2个NVIDIA泰坦X gpu训练一个AFNet大约需要20个小时。DeepMedic的性能是通过训练带有默认参数的公共软件[9],但不进行增强,并且与其他方法类似,对每个类进行平均采样。
3.2 脑部肿瘤分割数据
材料:BRATS 15[12]训练数据库包括274例患儿的多模态MR扫描,以及相应的肿瘤注释。我们将每次扫描归一化,这样属于大脑的强度平均值和单位方差为零。在消融研究中,我们对193名受试者的所有模型进行训练,并对54名受试者的表现进行评估。随机选择这些亚型,包括高级别和低级别胶质瘤。其余23例的结果没有报告,因为它们在开发期间用于配置。根据标准方案,我们报告了对整个肿瘤的分割、核心和增强肿瘤的表现。最后,为了与其他方法进行比较,我们对所有274张图像进行AFNet-6训练,对15个BRATS的110个测试用例进行分割(没有公开的注释),并提交预测供在线评估。
配置细节:设置类似于Kamnitsas等人的[9]进行公平的比较。对于表2中的每种方法,我们报告了使用不同种子的三次运行的平均值。
3.3 结果
消融研究:宫颈CT数据库消融研究结果见表1,BRATS数据库消融研究结果见表2。
我们观察到以下情况:(a)通过将Basic的最后一层转换为自动对焦来构建Afn-1,从而提高性能;需要注意的是,Aspp添加了多个并行卷积层,但它们之间没有共享权值。这导致参数的大量增加,因此,部分原因是Aspp优于Basic(见表3)。(c)将更多的基本基线层转换为自动对焦层会提高性能。一个例外是Uw数据集上的Afn-4与Afn-5/6。我们推测这是由于训练的随机性和次优优化造成的。(d)在盆腔扫描和脑肿瘤分割方面,除了增强肿瘤外,通过自适应聚焦增强深度医疗高分辨率通路的效果很快超过静态第二通路。我们注意到,在前一个任务中,由于结构尺寸的较大变化,自聚焦的自适应特性更加突出,因此获得了更深刻的收获。最后,我们注意到,通过跨尺度共享权重,afnet具有少量的可训练参数,如表3所示,这可以从少量数据中快速学习,但是这些数据留给未来的工作。缺点是,每个自动对焦层上的多个尺度增加了内存和计算需求。
与最先进的BRATS 15的对比:通过在线评估平台获得的BRATS 15的测试数据的性能在表4上显示,以及其他已发表的顶级方法。Afn-6与在BRATS 15挑战中获胜的半自动方法[2,14],以及采用第二种静态低分辨率路径的深度医疗方法相比,效果更好。注意,在[14]中,高级别和低级别胶质瘤是通过视觉检查分离的,然后通过一个适当的专门的CNN,这使它们比其他冰毒ods更有优势。我们的模型只被[10]和[7]的管道超越,它们都使用具有深度监控和更积极的数据扩充的CNNs集成。我们的简单方法所获得的良好性能表明了自聚焦层的潜力,可用于更精细的系统。
4 结论
提出了一种用于生物医学图像分割的自聚焦卷积层。自聚焦层能够以数据驱动的方式在不同的空间位置调整网络的接收域。我们对afnet的广泛评估表明,它们能很好地处理不同任务中的生物多样性,并能很好地在MR和CT图像上进行通用化。我们已经证明,自聚焦卷积层可以集成到现有的网络结构中,只需要少量增加模型参数,就可以极大地提高它们的表示能力。此外,自聚焦层的可解释性可以提高对深度学习系统的理解水平。研究自聚焦模块在回归问题中的潜力将是未来有趣的工作。