计算机视觉领域如何从别人的论文里获取自己的idea？（转）

来源:极市平台整理知乎高质量回答

一、作者：商汤科技的鲁叔

https://www.zhihu.com/question/353691411/answer/900046621

我其实有个不错的想法：

40篇比较新的oral paper，最好是开源的、你能看懂的、尽可能时髦的、大佬点赞的。

然后画一个40*40的矩阵，对角线上的元素不看，还剩下1560个元素。

每个元素看看A+B是不是靠谱，虽然可能99%都不靠谱。

但是还是有可能筛出来15篇左右的idea，如果考虑交换性可能只有7篇也够了。

或者你找40篇比较新的不是你发的oral paper，再找K篇自己的paper，也可以做这个事情。这样就不用排除对角元素了。

个人的publication水平还不高，不过很多其实也不是A+B产生的。

比如CNN之前的话，有一些是发数据集的

Pixel-Level Hand Detection in Ego-centric Videos
https://www.cv-foundation.org/openaccess/content_cvpr_2013/papers/Li_Pixel-Level_Hand_Detection_2013_CVPR_paper.pdf

有一些其实是一个经典pipeline里面有A+B+C很多步。

别人讨论B，C等步骤比较多，但是A步骤也很重要。想出一个A的trick最后发展出一篇文章

Face alignment by coarse-to-fine shape searching

http://openaccess.thecvf.com/content_cvpr_2015/papers/Zhu_Face_Alignment_by_2015_CVPR_paper.pdf

A+B也可以有一些跨度大的时候，也能产生一些还比较有趣的想法，并不是简简单单的incremental work。

比如把推荐系统用在分类器推荐（CNN时代之前）

Model recommendation with virtual probes for egocentric hand detection

http://openaccess.thecvf.com/content_iccv_2013/html/Li_Model_Recommendation_with_2013_ICCV_paper.html

分而治之也是常见思路，任何topic都可以加（CNN时代之前）

Unconstrained face alignment via cascaded compositional learning

http://openaccess.thecvf.com/content_cvpr_2016/html/Zhu_Unconstrained_Face_Alignment_CVPR_2016_paper.html

还有有的时候看到别人RL+tracking的文章，想到手里的聚类也可以这么做，就搞了一个A+B（不过步子扯有点大老是被拒后来就投了AAAI）

Merge or not? learning to group faces via imitation learning

https://arxiv.org/abs/1707.03986

今年还看到有人用GCN聚类所以结合GCN重新投了一篇。（还没release）

还有有时候可以做一些哲学讨论，就不是简单的A+B了

The devil of face recognition is in the noise

http://arxiv.org/abs/1807.11649

补充：如果只是A+B需要说明为什么是non-trivial的，一般至少要改成A+B'

或者A+B+C比较容易发。

比如之前搞过一篇其实是Unsupervised Landmark + VUNet的decompose + CycleGAN的工作，如果只是前面两个term做到一半的时候试着投ICLR 就没成，后来把CycleGAN的部分做完CVPR就中了。

二、作者：匿名用户

https://www.zhihu.com/question/353691411/answer/900377446
本文来自知乎问答，仅供学习参考，著作权归作者

其实第一位作者的答案看似调侃，但可操作程度很高，甚至很多组其实就在这么做。不同的是可能是从多个方向取才然后交叉，效果更佳。

虽然我不是做CV的，但我有遇到相似的问题。如果提出了新颖的、效果不错、但无法理论证明的想法（尤其我做的是无监督学习+不平衡数据+集成学习），那这种文章大概率会被毙掉。

审稿人有太多方向可以攻击你，比如缺少可靠的baseline，理论不够坚实等等，即使偏应用的数据挖掘会议也不能幸免。反而是那种几个领域交叉一下，你可以说我们把A用在了C上，并借鉴了B，效果拔群。理论基础可以参考文章[1,3,4]，剩下的就是加工一下motivation，跑试验证明效果好就可以了。

这种套路可行吗？可行，因为我也干过。但为啥要这么做呢，主要还是因为现在投稿数量上升导致的审稿人质量方差大，这导致你必须考虑审稿人能够意识到这文章是背靠大树，踩在前人的肩膀上，靠谱。

而对于真正自己喜欢的、比较新鲜的、缺乏对照和理论基础的，我会在投主会前投别的顶会的workshop（注意是不会正式发表的那种，因此不是一稿多投），先收集一下反馈并在网络上留下被accept过的痕迹。之后会放到Arxiv上，并注明已被xx workshop接受，同时放出完整的代码，如果可能甚至会直接写成可用的工具包。

直到这一切都做完了，我才敢把这种点子投到顶会的主会上。原因有很多，但最核心的原因是现在的双盲已经名存实亡，人们拿到稿子都会去搜一圈。如果看到了一个工作出自靠谱的团队，且已经被审过、接受过，有对应的完整代码和工具，即使主题比较新，也会更倾向于接收。

这对于“标新立异”的文章而言是很有帮助的。但不难看出这种操作的成本和代价有多大，远不如几个方法一交叉来的成本低。

但成本和成就感之间总是有妥协的，所以饭要吃，梦也还是要做的。

毕竟人不吃饭会死，但睡不够就会活得像行尸走肉，又能好多少呢？

三、作者：邵浩博士

https://www.zhihu.com/question/353691411/answer/922682279
本文来自知乎问答，仅供学习参考，著作权归作者所有

读完论文以后（非常大的量），就会有一些对这个方向的概括性的了解，也会发现这个方向上还没有做好的问题，idea也就自然而然出来了。写论文，无非是四个层面：

1）新问题，新方法；

2）新问题，老方法；

3）老问题，新方法；

4）老问题，老方法。

无论是计算机视觉，还是其他领域，从四个方面都可以入手。

比如说某篇论文做的是行人识别，用了算法是YOLO3，那么你是不是可以：

1）做一个手上拿电脑包的行人识别，改进一下YOLO3，搞一个自己的YOLO3+的算法

2）做一个手上拿电脑包的行人识别，还是使用YOLO3，用大量的实验证明有效性

3）做一个传统的小猫识别，使用改进后的YOLO3+算法

4）做一个传统的小猫识别，还是使用YOLO3，用大量实验证明其有效性

归根结底就一点：读大量大量的论文！

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,530评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 86,403评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,120评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,770评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,758评论 5赞 367
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,649评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,021评论 3赞 398
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,675评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,931评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,659评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,751评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,410评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,004评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,969评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,042评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,493评论 2赞 343

计算机视觉领域如何从别人的论文里获取自己的idea？（转）

一、作者：商汤科技的鲁叔

二、作者：匿名用户

三、作者：邵浩博士

推荐阅读更多精彩内容