计算机视觉中RNN应用于目标检测

姓名:宋子璇

学号:16020199060

转载自:https://zhuanlan.zhihu.com/p/32870463

【嵌牛导读】:分析RNN做目标识别

【嵌牛鼻子】:RNN

【嵌牛提问】:计算机视觉中RNN怎么应用于目标检测?

【嵌牛正文】

深度学习在计算机视觉领域取得的巨大的发展,最近几年CNN一直是目前主流模型所采取的架构。最近半年RNN/LSTM应用在识别领域逐渐成为一种潮流,RNN在获取目标的上下文中较CNN有独特的优势。以下我们分析最近有关RNN做目标识别的相关文章。

1、Inside-Outside Net: Detecting Objects in Context with Skip Pooling and Recurrent Neural Networks CVPR2016(论文笔记)

本文的主要贡献是用skip pooling和 RNNlayer。在多尺度的feature map 上做roi pooling,最后一个feature map是通过rnn得到的。

识别精度在VOC2012上达到76.4%,原因主要是利用多尺度的feature map和rnn layer。文章中用到了很多trick:

1) rnn 用的是修改后的IRNN,速度快,精度与LSTM相似。

2)由于是在多尺度feature map上做roi pooling,每个尺度上feature map的响应幅度不一样,所以需要先做L2-norm,然后再将这些尺度得到roi 特征concate到一起。然后统一在scale到一个尺度上(scale由网络学习得到)。

3)加入的lstm单元现用segmentation的数据集做预训练,让权重预学习。(很重要,有两个百分点提升)

4)如果把最后一层IRNN换成级联的3*3的卷积层,精度下降0.8%,所以IRNN对于提升不是那么明显。

思考:

1)此方法对于小尺度的物体,如bottle、plant等识别效果不好,是否可以利用最早的feature map做识别,最早的feature 尺度信息保存的较好。

2)rnn只是用来提特征用,并没有考虑到物体的上下文信息。

3)是否可以在第一轮识别到物体后,利用attention的机制,现将这些物体在feature map上去除,重点识别小的物体。

2、End-to-end people detection in crowded scenes

在Lentet得到特征的基础用,用LSTM做控制器,按序列输出得到的框。细节方面需要注意的是没有用NMS,用的hungarian loss(匈牙利算法)。本文最大的贡献出了源码,方便做detection的理解LSTM在目标识别中的应用。

Github仓库地址:https://github.com/Russell91/ReInspect/

3、CNN-RNN: A Unified Framework for Multi-label Image Classification

本文的主要目的是做图像的多label识别。

文中有一句话很重要:"when using the same image features to predict multiple labels, objects that are small in the images are easily get ignored or hard torecognize independently". 用同一个feature map预测多label时,往往会忽略小物体。

所以作者利用两个并行的网络,第二个网络输入时当前输出的label,先得到label embeding,然后通过rnn得到一向量,融合图像的feature map得到image embeding,最终输出当前图像下一个label。

思考:

1)利用Deconvolution 将feature 扩到原图一样大小,做小物体的目标识别。

2)用不同尺寸的卷积核。

小思考-----为什么原来多级的级联的卷积,最后的卷积的感受野很大了,为什么还能识别一些较小的物体,比如行人,想象一下最后一层的类别热度图,原因是: a 此类有较强的文理信息b 尺度还是比较大. faster RCNN最后一层卷积层只有14*14,最后也有很好的识别效果,究竟是为什么?

4、Attentive contexts for object detection

文章利用local(多尺度的cnn特征)和global(LSTM生成)来做目标识别。用global的原因是:图像中的其他信息有利于当前box的识别,比如图像中出现其他的汽车对当前框识别为汽车的提升很大,但在文章中global的提升不是很明显,只有0.6%的提升。作者所用的global信息感觉很一般,并没有真正用到lstm的作用。

思考一下,lstm到底怎么用才能提取global信息:之前不容易识别到的椅子或者瓶子,不能用cnn最后得到的特征,应为太稀疏了,一是瓶子之类的没有纹理信息,而是像椅子之类的纹理太乱,与其他的物体太冲突。可以利用本文lstm的思路,将隐层的输出当做test时候的隐层输入,怎么将这20类的所有隐层信息集合起来是个难点。

5. Recurrent Convolutional Neural Network for Object Recognition CVPR2015 清华大学 链接二

每一层卷积后用RNN(类似一种cnn,只不过权重共享),在参数较少的情况下,让网络的层数更深,每层获取的context信息更丰富,用cuda-convenet实现,文章借鉴意义不大,从引用量上就可以看出。

6. Image caption相关论文

show and tell: a neural image caption generator CVPR2015

image captioning with deep bidirectional LSTMs

此类文章的主要思想是将图像的cnn特征当做传统LSTM的输入,最终生成一句句子描述,对目标识别的借鉴意义不大.

7.combining the best of convolutional layers and recurrent layers: a hybrid network for semantic segmentation

本文的主要思想也是用了3层的lstm去提特征,最后用1*1的卷积层降维到K(类别数)层的feature map,本身没有什么创意,只是效果很好. 而且文中作者又设计了一个FCN+LSTM的级联网络,效果做到了state-of-the-art. 借鉴的地方不多。

8. semantic object parsing with graph LSTM

本文主要思想是抛弃原来逐点做序列的思想,转而利用超像素做为序列,而且超像素的输入顺序是根据前一步FCN得到的confidence map决定。

Graph LSTM是用来做语义分割,是否可以借鉴用来做目标识别.

9. pixel recurrent nerual networks

本文利用pixel rnn来做图像的补全,将各种门的计算用cnn来实现,加快计算速度(仅限于门的计算,cell state的更新还是传统方式),最大的贡献是用了多中网络,pixel CNN pixel RNN multiscale RNN---先生成低分辨率的图像,然后用这些低分变率的pixel作为先验知识最终生成一幅完整的图。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容