作者:阿昆
链接:https://www.zhihu.com/question/37779411/answer/593070552
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
比起顶尖杂志的文献,我更喜欢没什么深度的“垃圾”文献。
研二的时候,导师安排我去某航空单位实习,学习新技术,帮他开拓一个新领域。在此之前,导师给我换过两个研究方向,从海底地形探测,到声呐仪器检测,再到现在的航空遥感,海陆空的工作倒是都能干,就是哪个都不精通。
学成归来,确定硕博连读,导师结合我学习的新技术,给指了一个比较宏大的方向,然后放心地让我自由探索了。
上学期看了192篇论文(有记录的),论文的时间跨度和专业跨度都比较大。
图1
学习过程中,发现以前的专业知识可以通过一些关键点转换、融合到新的技术中,意识到万事万物都是相通的,从此一发不可收拾,慢慢形成了一套知识体系,而且看见什么都想融合进自己的体系。
顺带一提,我的新研究方向刚好是多源数据融合。
以上是背景。
---------------------------
以下是方法。
一、辅助工具
1 Adobe Reader
PDF阅读器,注释功能比较实用。
图2
2 Excel
用于记录所读文献的信息。
我把信息分为13类(按自己需求调整):
1)序号
2)RM:阅读方式,包括粗读,精读(实现算法)和挑读
图3
3)挑读内容:如果阅读方式是挑读,则记录挑读的内容
4)题目
5)期刊
6)作者
7)时间
8)关键词
9)基本流程及评估方法:记录论文用到的算法以及对该算法的评估方式
图4
10)信息:记录论文中自己不知道或对自己有用的信息
11)分类:总结、分类该领域的所有方法,提供一个广阔的视野
12)问题:记录自己看论文时的一些想法
13)句子:以后写论文时可能会用到的句子
图5
3 思维导图
主要是对表格信息中的9)与11)进行梳理。
二、方法
1 无限制输入
广泛地阅读文献,可以是与专业相关的,也可以是与专业无关的,具体视自己情况而定(可参考二八定律)。
我们知道放射性思考是人类大脑的自然思考方式,每一种进入大脑的资料都可以成为一个思考中心,并由此中心向外发散出成千上万的关节点,每一个关节点代表与中心主题的一个连结,而每一个连结又可以成为另一个中心主题,再向外发散出成千上万的关节点,呈现出放射性立体结构(思维导图,知乎)。
现在专业划分的越来越细,学科门下设一级学科,一级学科下设二级学科……
但反过来看,各个专业就像思维导图中那成千上万的关节点,这些关节点都汇聚到一个中心主题(以下称思维导图原理)。
换句话说,各个专业之间都可以通过一个中心主题建立联系。
所以,看似与专业无关的内容,其实是有一定借鉴价值的。
无限制输入的优势
融合最优化问题的思想,无限制输入可以避免局部最优。
一般的启发式算法、贪婪算法或局部算法都很容易产生局部最优,或者说根本无法查证产生的最优解是否是全局的,或者只是局部的。这是因为对于大型系统或复杂的问题,一般的算法都着眼于从局部展开求解,以减少计算量和算法复杂度(局部最优,百度百科)。
若想避免局部最优,一般有两种方法:
a. 随机搜索,对机理不明的问题,解的搜索越随机陷入局部最优的可能性就越小——无限制输入。
b. 深入研究问题的机理,对问题的机理研究的越透彻,就能更准确的找到全局最优,或划定全局最优可能的区域——见单点突破。
2 i+1
说是要无限制输入,但其实还是有限制的。
我们看到的,基本都是早已知道的,而对于不熟悉的、没有认知的东西,大脑是会直接忽略掉的。比如,朋友让你帮忙找东西,在他把这个东西的位置、具体形态特征描述给你之前,你基本“看不到”它;比如,在我开始用牙线棒以后,才经常在生活中(舍友的桌子上、路上、垃圾堆旁)看到它,而在这之前它从未出现在我的视野中,尽管就在身边。
如果大脑把看到的、听到的、闻到的、触到的所有信息都处理一遍,那很快就会因为信息量过大而死机。
融合语言学家Stephen D. Krashen博士第二语言习得的i+1假说。
i指学习者现有的水平,+1指在现有水平基础上增加一点点难度。
具体来说,就是选择的文献等级要略高于你目前的水平,这就是我在开头说的,没什么深度的“垃圾”文献。
如果一篇论文的等级是i或i-1,那你大致浏览一遍,就清楚它讲的是什么,知道怎么实现。
如果一篇论文的等级是i+10,可能文中的每个字都认识,但就是不知道他在说什么,看过一遍后再回头想,什么也没记住。其实主要是因为信息量过大,这也是为什么一本书看完很快变成过往云烟。
如果想要读懂一篇i+10的文章,需要查阅大量的等级为i+1的参考文献,一点点突破。
那不如直接从i+1入手。
值得一提的是,i是一个变量,你的水平是在慢慢提高的,而你选择的论文也要在你目前水平的基础上,再高一个等级。
用代码表示:
while problem unsolved
i=i+1;
end
3 单点突破
作为一个马克思主义者,我们都知道,实践是认识的来源,是认识发展的根本动力,是检验认识正确与否的唯一标准。
而作为一个工科生,所做研究通常是以应用为导向的,对于一种方法,我们更关心它能不能实现,效果好不好。
为了避免眼高手低,忽视文献方法中的一些细节,需要对算法进行实现与验证。
1)实现哪种算法?
目前论文数量快速增长,难免出现良莠不齐的现象,甚至有些还会对科研工作产生误导。如果把科研论文当做一种经验总结,或者一种信息,融合信息价值判断的思想,对于获取的信息,可以从准确性、权威性、时效性、适应性等方面,综合判断算法的实现价值。
a.准确性
指内容是不是真实有效的,通常可以从信息是否符合事物发展的一般规律,是否具有内在逻辑性,是否与其他信息矛盾或冲突等角度来考虑信息的准确性。
b.权威性
指内容是否具有令人信服的力量和威望,信息提供者的专业背景、资质、工作经验等均可作为衡量信息权威性的参考指标。
c.时效性
指信息在某段时间或某一时期是否有效,一般通过考察信息内容的发布是否及时、是否最新、是否客观和准确来加以判断。
d.适应性
指信息对于问题的解决是否有用以及作用大小,一般可以从信息是否能达到使用者对信息的要求和信息对于解决问题的作用大小这两方面来进行判断。
通过无限制广泛地阅读,由于思维导图原理,你会发现某种方法出现的频率很高,这些方法通常都是一些经典算法。
对于一种全新的算法,很难验证其准确性,即使它是由权威团队研究的。
对于一种经典的算法,它的流传时间久,引用次数多,说明它的准确性比较高;而引用次数的增加也会提高作者的权威性;一种方法存在的时间越久,那它将继续存在的可能性也越大(《反脆弱》,纳西姆·尼古拉斯·塔勒布)。
2)如何实现
通过广泛阅读(粗读)找到具有实现价值的算法,再广泛阅读(精读)与该算法相关的文章(伪代码模拟实现,如图2所示),从而通过实践实现该算法。
同一种算法,由于数据不同,或者实现的思路不同,实现后,往往会遇到一些问题,再通过广泛粗读找到解决问题的办法……
经过一定次数的迭代,找到最优的解决方法。
以上