[Paper Weekly]CNN采样方法:空间变换网络(STN)与可变形卷积网络(DCN)

卷积网络(CNN)的采样问题

卷积神经网络(CNN)是一种强大的非结构化数据抽象特征抽取模型,其最基本的结构卷积层为一个权值共享矩阵,但是在不考虑池化(pooling)层的情况下,单纯的卷积操作对图像的仿射变换(平移、缩放、剪切、旋转)缺乏不变性。这种缺陷与CNN默认的采样方法(矩阵采样)有很大的关系。所以,为了使网络获得对仿射变换的不变性,通常采用了改变采样方式的做法(如采用pooling方式的采样使网络获得了一定的平移、缩放、剪切不变性和较小的旋转不变性)。
在以往的卷积网络中,采样方式通常以强先验的方式直接给出(如基于hough变换的位置修正),但是显然强先验的方式通用性较差,我们看到基于矩阵的pooling只能通过数据增强的方式获得对旋转的识别能力。很容易联想到,基于学习的启发式采样,可能是一种更通用的采样方式。本文将介绍两篇启发式采样方面的相关工作:空间变换网络(STN)和可变形卷积网络(DCN)。

空间变换网络(Spatial Transform Network)


《Spatial Transformer Networks》是一篇2015年deepmind的研究。这篇文章提出了一种以启发式仿射变换矩阵为基础的结构来为网络提供一定的空间不变性。

1.仿射变换与双线性插值

有点懒,待补充

2.空间变换结构

正如前文所说,通过仿射矩阵可以求得特征矩阵上的点在经过特定仿射变换后对应输出的位置,通过双线性插值,我们可以得到一个新的特征矩阵。我们可以通过学习来设定仿射矩阵的参数,从而通过仿射矩阵对特征矩阵进行有效归一,我们称其为空间变换器(Spatial Transformers)。来论文的第一部分,只介绍了单变换器(即对一个feature map只有一个仿射矩阵)。


仿射归一

空间变换结构包含三个部分:


空间变换结构
  1. Localisation Network:以的feature map作为输入,以变换矩阵的元素作为输出的网络结构,变换矩阵可以为任意形式,对于仿射变换矩阵而言,为一个6参数矩阵。
    网络可以是以回归层为终止的多种网络结构,可以采用全连接结构也可以采用卷积结构。

  2. Parameterised Sampling Grid:根据Localisation Network的参数,我们对一个一般的feature map产生一个特定的变换后的grid(通过逆变换)。通过仿射变换:



    同时将输入的横纵坐标范围和输出的横纵左边范围归一化为[-1,+1]。由此对图像进行裁剪、平移、旋转、拉伸及扭曲形成输出的feture map。


    左图为一般采样下的grid,右图为空间变换采样的grid
  3. Differentiable Image Sampling:在获得相应的grid和变换矩阵后,需要对原featrue map进行采样从而得到新的feature map。
    通过变换矩阵相关的采样核:



    将原feature map映射到新feature map中,如双线性插值:


    双线性插值

    该变换可以求梯度:

    (变换矩阵反向传播?)

通过以上三个结构,就形成了了一个空间变换器。该结构可以背放在卷积网络的任意位置,通过训练学习如何得到最有效的变换方式。
STN的基本原理大致就是这样,文章之后还讨论了multiple spatial transformers、 半监督的co-localisation、higher dimensional transformers等应用形式。
STN网络确实是一个好的想法,但是比较怀疑这种针对全局的变换在比较复杂的任务(如分类较多时)中是否依然有效。


可变形卷积网络(Deformable Convolutional Networks)

《Deformable Convolutional Networks》是一篇2017年Microsoft Research Asia的研究。基本思想也是卷积核的采样方式是可以通过学习得到的。作者提出了两种新的op:deformable convolution和deformable roi pooling,主要是通过给传统卷积采样点加offsets的方式来获得新的采样点。


1.Deformable Convolution

在传统的卷积中采样的grid为一个矩形,如对于一个3*3的卷积核来说,其grid为 :



在每一个输出feature map位置上做卷积操作:



在可变形卷积中,给每一个grid位置上的pn加上offset,即:

用于加上offset后,位置可能会出现非整数的情况,故需要采用插值的方式(如二次线性插值)确定非整位置下对应的值:



在实际应用中,对于一个的输入,若使用3*3的卷积核,则先通过卷积,生成一个新的channel数为2*3*3的feature map(大小不变),分别代表不同方向上x,y的offset值。

在训练过程中,offset通过二次线性插值进行反向传播(见STN)。

2.Deformable RoI Pooling

Roi Pooling是detection中的一种方法,目的是将一个任意大小的feature map映射到特定大小的feature map上。在传统的Roi Pooling中:


如同Deformable Convolution中,我们给每一个位置加入偏置:

同样的,offset可能为非整数,使用插值的方式获取非整数位置对应的值。
在实际使用中,若pooling的目标为一个3*3的featrue map,那么我们需要233个偏置对应每一个bin,首先将输入的featrue map进行roi pooling为3*3大小的feature,然后通过全连接,输出为每一个bin对应的offset。同时为了保证采样大小,需要对offset进行normalization。

Deformable ConvNets

Deformable Convolution和Deformable RoI Pooling两种结构都可以直接应用到conv网络中去,同时直接端到端训练达到启发式采样的目的。


采样点比较

总结

STN和DCN两篇文章都提出了启发式的CNN采样方法。bilinear interpolation确实是个好方法,即解决了采样问题也解决了反向问题,实际实验里也确实work了。但是为什么会work,还是不明白。
两篇文章都是端到端的方法,非常有启发性,但是也都没有完全逃离传统采样,期待以后的工作。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,311评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,339评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,671评论 0 342
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,252评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,253评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,031评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,340评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,973评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,466评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,937评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,039评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,701评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,254评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,259评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,485评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,497评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,786评论 2 345

推荐阅读更多精彩内容