说明
这篇文章,是写给我去年入学的研究生的。暑期之后,他们中的几位就要开题了。
本着一贯的开放原则,我把这篇文章同时发布到网络上。欢迎有需要的高年级本科生或低年级研究生同学一起阅读。
前些日子,我参加了哈工大的“大数据与商务分析”暑期学校。这段日子的记忆是炎热、匆忙和充实的。我收获了许多东西,尤其是在科研思路方面。从前有许多迷惑的地方,都从诸多高人那里获得了答案。即便有些问题不是一两句话能说清的,热心的学者们也给了我充分的指引。
回津后这些日子,我一直在认真整理笔记,并且按图索骥来读书、看文章,希望把思路理清,并且记录下来。
收获太多,我可能要写若干篇文章,才能把在科研领域认知升级的过程记载清楚和完整。
通过本文,我把这些收获和感悟分享给你。希望你和我一样,充分利用好这个假期,在科研之路上精进前行。
遗憾
这次暑期学校,你真的应该来参加。
至少,也该来看看你们的导师是怎么当“麦霸”的。
别误会,我说的并不是K歌。事实上,因为五音不全,我在别人K歌的时候,向来只愿意做一枚安静的听众。
我说的“麦霸”,是指每次演讲中的提问环节,坐在第一排的我都是第一个举手。每次哈工大的工作人员都是摇头叹气把麦克风递给我,我一张口说话,背后就是窃窃私语声一片。
我不在乎。
我来的目的,不只是当听众的。
所谓“学问”,除了要学,还得要问。我远道而来,是要跟国际一流顶尖学者交流的。不问问题,怎么交流?
需要交流的动力,是我脑子里面有一大堆亟需验证的假设,需要找应用数据科学做研究的权威专家做验证。这种低成本快速验证的想法,来自于D9X的阎总。他的创新思维工作坊让我受益良多。
暑期学校邀请的讲座学者都是做数据科学+信息管理研究的。我简直如同刘姥姥进了大观园一般。眼花缭乱,看什么都觉得新奇有趣。
我提的许多疑惑问题,如果自己尝试,花费的精力和机会成本都是巨大的。
这些宝贵的知识和经验,不能不善加保管。我认真整理了笔记,打算通过系列文章的形式分享给你。
今天这一篇文章,急用先学,就讲讲科研选题吧。我大致归纳了以下6种常见的选题导向,一一帮你剖析。希望能够帮助到你的开题和今后的科研。
方法导向
我一直跟你反复强调的那句话,还记得吗?
To the one with a hammer, everything looks like a nail.
翻译过来,就是“当你手里拿着一把锤子的时候,看啥都像钉子”。
如果你仅仅把论文当成是方法论课程的实践作业,那你很可能也会这么想,并且这么做。
可是方法运用得再高妙,如果与你的研究问题不匹配,也是枉然。
更何况许多人对方法只是一知半解。他们真正学会的只是鼓捣出一堆来源可疑的数据,然后扔到统计软件的绞肉机里面,等着漂亮的结果从另一端奔涌出来。
天上真的能掉馅饼吗?不,你只会看到这样的结果。
没错,垃圾进,垃圾出。
因为你的逻辑可能是这样的一个三段论:
大前提:狗都有4条腿
小前提:我家的猫有4条腿
结论:我家的猫是一条狗
你们可能觉得自己学过的东西更高级一些,不会犯这些毛病。
例如学了爬虫,你就可以随心所欲找自己需要的研究数据了。根本无需去伪造数据,或者担心别人填写你的问卷的时候胡乱应付。
学了R,你就可以做出非常漂亮的回归分析结果和图表,甚至能处理时间序列。
学了机器学习,你就可以让机器替你干脏活儿累活儿,帮你快速分析出决策树、做出词云,甚至是做文本情感分析与主题发现……
但是,即便这样,也请你记住——不管多么时髦和高级的工具,也不应该成为你论文选题的起点。把高中数学老师教给你的那一套“分析法思考,综合法证明”的小聪明暂时收起来。否则一叶障目,你就会丧失自己的起点。迷茫的结果就是做出了一大堆劳动成果,却没有解决任何值得解决的问题。
选用了某种方法时,一定要问自己几个问题:
- 为什么要使用到这种方法?是因为自己熟悉吗?是因为别人不熟悉吗?
- 这个问题是否适合这种方法?有没有其他方法可以更好处理该问题,即便这个方法你并不熟悉?
- 你能获取到这种方法需要的数据吗?这些数据通过该方法的处理,能否产生你需要的形式?
选题、做题都是有机会成本的。把时间花费在值得的事物上。切记。
研究要有目的。最重要目的是要解决一个具体或抽象的问题,而且这个问题还应该有价值和意义。
我这样说,不是让你停止学习研究方法。
恰恰相反,方法不仅要学,还一定要多学。但是学过之后,要放弃“一定要应用某一方法”来做研究和写论文的执念。
Anindya Ghose说,只有你掌握的方法足够多了,工具箱里面有各种各样不同工具的时候,你才不会偏执于某一种方法,而是根据问题去筛选合适的解决途径。
方法导向看来对论文选题不合适。怎么办呢?很多人会抢答说“问题导向”啊。
说的没错,但是仅仅说“问题导向”其实并缺乏可操作性。问题从哪里来,该怎样寻找?
通过和一流学者的交流,以及文献的阅读,我梳理出问题来源的以下常见类别:
- 文献;
- 数据;
- 实践;
- 协同;
- 系统。
下面我来当个导游,带你在不同的问题来源中游览一番。希望聪明的你可以掌握它们,并且找到适合自己的问题寻找途径。
文献导向
做研究、写论文需要读文献,这是常识。
许多研究者会建议你从文献发现问题。这也是一种公认的传统智慧。
被戏称为“洋八股”的研究文献,实际上是学者们跨越时空的对话。这种特殊的对话体例,不仅要求作者去梳理相关的历史文献脉络,还得在论文末尾标出来文章的限制和未来需要做的研究,即所谓“展望”。
很多老师会让学生从这里着手,去发现别人研究局限,然后通过突破这些局限,替别人把展望变成现实,从而做出属于自己的原创性研究。
这个方式好不好?理论上是好的。论文结尾放这么一个部分,本意就是给后来人提供合适的路标和前进方向。
然而,现实往往是复杂的。许多经验丰富的研究者对此心知肚明,却因为各种原因不愿意或者没有合适的办法告诉你。这就是科研的潜规则吧。
现实世界中,那些“限制”、“展望”其实不是实在的路标,而是研究者们望洋兴叹的产物。他们就如同“笑傲江湖”里面的魔教长老一样,手持利斧开山数百丈。所不同的是他们并没有累死,而是停下来,告诉你“嗯,往这个方向走是没错的”。
除非你幸运如令狐冲,否则别指望剩下的山体可以一捅就破。大部分情况下,你恐怕还得另外开山数百丈……
能解决的问题,原先的研究者肯定早已解决完了。谁会把容易解决的问题留着?积攒这些问题和存款不同,不会给你带来任何复利。
更何况,审稿人哪里会对容易解决的遗留问题“高抬贵手”?肯定会穷追猛打,让作者反复磨合,真正解决了它们才肯善罢甘休。
被审稿人和编辑放过的“未解决”问题,要么是非常难以攻克的问题,实在不便强人所难;要么是工作量很大的问题,完全可以自成一体,再写一篇文章。放心,当你有幸在期刊上读到正式发表论文的时候,后一篇文章原作者早已写完了。
这就如同是王戎说李子是苦的一般。如果你运用理性思维琢磨一下,就会发现其中的关窍。
正因这种潜规则,Google首席经济学家,UC Berkeley的教授Hal Varian提出,千万不要在构建完成一个新的模型之前,去寻找和阅读相关文献。
这里有2个考虑:
- 好的文献绝不会给你留下容易解决的好线索;
- 你的思路会跟着这些走在“主流”上的大牛走,于是彻底钻到一个死胡同里面去。对于本来可以轻易发现的新线索,你会自动忽略它们。
因此,他建议人们先去把模型做出来,然后修正模型到可以接受的简化程度。
有了这样一个模型,再去读文献。这时候可能你会发现数十年前这个问题就有人做过了。
不过不要沮丧,这不是大问题。
这恰恰证明你的独立科研能力已经达到了(至少在当时)可以发表优秀期刊的水平。对于研究的初学者来说,这是一种非常积极的反馈。下面用你的经验去追寻新的问题和模型。如果你的模型和原作者有细微的区别,那就更好了。从这些差别中,可能会做出极其有价值的发现。
另外一位学者,佐治亚理工的吴东军教授(D.J. Wu)提的办法就更有意思了。他的办法属于典型的看热闹不嫌事儿大——让经典文献PK!
文献都不是生物,怎么PK?其实许多文献确实在打架。例如一篇文献A提出某观点。可能一段时间以后另一篇文献B用坚实的证据把该观点驳斥得体无完肤。
人们就倾向于新的文献B观点,奉为圭臬。但是文献A当初是怎么从审稿人的手底下滑过去的?它想必是有合理和可取之处的。
吴老师于是就从这样的文献间冲突出发,用更为全面的模型考虑在哪一种情况下,A的论点依然会成立。从而对经典文献给予(有条件的)支持。
由于文献A和B冲突的公案,他所作的研究意义和价值已经不言自明。因此这是一种非常聪明而有效的文献利用方法。
发现、理解,而且还恰好能重新诠释经典文献冲突,听起来很美妙。然而,并非所有人都有这样的运气和毅力的。所以,为了发现问题,你还需要有其他的手段。例如本次暑期学校的主题——“数据”。
数据导向
如果你手里有好的独特数据,可以尝试从中获得选题。
这次的暑期学校,有半天的时间是编辑-作者交流。由于MISQ的主编Arun Rai和ISR的主编Alok Gupta都在,所以分成了2组,每一组分别有3-4位作者上去展示自己的论文,寻求主编大人的意见。
有位作者展示的是利用Foursquare数据对用户行为做预测的研究。我对该文章感兴趣,是因为我做隐私保护研究,很好奇用户的隐私是不是丝毫剩不下了。
然而其他听众的兴趣点就在于独特的大规模数据获取了。他们从教室一直追问到了路上,问论文作者是如何收集这些数据的。
这位论文作者一下子有些紧张,讳莫如深。似乎害怕这份宝贵的数据很快就要被别人轻易夺走了一般。
这种担心不无道理。大数据时代,数据是不缺的。但是真正有价值的数据,如同沙里淘金一般。
专属的数据不是所有人都能搞到的。有位来自业界的老师,讲解如何和国家税务总局合作,利用发票数据来监控产能过剩问题。方法其实非常简单,只需要筛选出合适的特征就可以——他最后选择的是钢铁和煤炭。他们通过这种方式,不仅给全国企业画像,而且还通过某些指标特征,发现了其他有趣的结果。因为过于有趣,所以在修正的模型里面剔除掉了。
你可能觉得很不服气——这样的问题你也有能力处理啊!问题是,你从哪里搞到如此大规模的专属数据呢?
这个问题咱们后面会谈及。
如果专属数据难以获取,你可以退而求其次,找开放数据。
开放数据中,也有非常适合研究的类别,而且规模庞大。例如Google的Correlate和Trends数据,以及Twitter的Firehose开放数据等。
但是请注意,如果你利用开放数据做研究,速度是非常重要的。这是个竞争激烈的领域,慢了就什么都落不下了。
哈工大管理学院的叶院长,提到了自己研究里面曾经用过的百度数据。当时和Google的相应搜索数据进行比对研究,效果非常好。后来他们团队兴冲冲拿给百度的人看过。对方没说什么,回去就把数据下载的接口给关闭了。
好在高价值开放数据,也不都是“不小心”流出来的结果。
例如Kaggle上面总是有非常规整的数据集,可供你使用。如果你用得好,还能获得价值不菲的奖金。
发布数据的企业疯了吗?白给别人数据,还送钱?
当然不是。企业面临实际问题。他们需要利用数据驱动的方式来解决问题。解决问题,自然也可以聘用咨询师。但是注意咨询师是按照时长而非效果来收费的。与其如此,还不如公开发布数据,让大家来竞赛。用奖金作为杠杆,撬动世界上最优秀的大脑一起竞争解决问题。
从Kaggle的例子里面,你应该明白了一个道理——数据可以给你独特的视角和观察资料,但是其中蕴含的更为重要和有价值的问题,其实源自实践。
实践导向
前面提到过,Hal Varian教授认为不应该从文献里面找问题,而应该把时间花在看似不相干的报纸和杂志阅读上。
他推荐的报刊杂志包括:
- 纽约时报
- 华尔街日报
- 经济学人
他认为,对经济学研究者来说,读这些东西远远比看论文重要。因为它们会提到经济学家感兴趣的实际问题,可是分析过程有时漏洞百出。别人可能一笑置之,但是Hal Varian教授显然不会轻易放过这么好的选题机会。
其实,这就像是在讨论区里面和别人争论。如果你翻来覆去只会说一些大家都知道的内容,没有人会觉得感兴趣。而如果你你能够不断从外界获得新的灵感、信息和见识,那讲出来的内容就可以更轻易地抓住别人的注意力。
除了这些报刊杂志之外,学者们还提到了两个很好的实践问题来源。
第一个就是业界咨询工作。许多好的学者,例如Anindya Ghose和Paul Pavlou等,都是两条腿走路。一条腿在学术界攀登,另一条在企业界做咨询。
咨询,是一定要解决问题的。所以,不用你找,问题自己就找上门来。
在大数据时代,做咨询必然要接触到许多企业数据。例如Ghose拿到了好几家知名的企业做数字广告的效果数据。这些数据不仅数量庞大,而且结构化完整、真实性高,是让你的研究获得竞争优势的重要源泉。
与企业合作,是一种双赢之道。在这个社会上,一定要学会互惠合作。不要尝试做伸手党。
许多老师和研究生都觉得,拿数据是一件非常困难的事情——那些大公司根本就不愿意分享数据给你。
没错,但是你没有看到硬币的另一面。他们其实特别乐意分享数据,只要你的分析能力比他们还高,能给他们更有价值的洞见。
包括中国移动在内的许多中国大型国有企业都对Ghose这样的顶级学者敞开大门、张开双臂,热烈欢迎。
同样的数据,在不擅于分析的人手中,一文不值;到了会分析的人那里,就可以挖掘出不菲的价值。这是个“数(据)中自有黄金屋”的年代。企业解决了实际问题,获得了经济回报;你完成了研究,发表了高水平论文。这便是双赢之道。
可是你作为一个初级研究者,还远远没有那样的积累。大企业还是会把你拒之门外,怎么办呢?
从小处做起,深入进去,帮中小企业解决具体的问题。
我在MSU访学的时候,讲授管理信息系统课的Kizzier教授,就把学生撒出去到main street上挨个儿敲门,帮助企业发现目前系统存在哪些不足,并且想方设法加以改进。学生上课的时候分享这些案例,可以充分体现出“实践出真知”的意义。
获取实践问题的另一种方式是读案例。
前面提到的佐治亚理工吴教授,就让自己的学生去读哈佛案例库,从里面寻找问题。
一个企业案例,能进入哈佛的案例库是非常不容易的。经过层层筛选的经典案例往往代表了业界实践中非常典型的问题。
清华大学宁向东教授讲,他在哈佛读经理培训班的时候,根本就没有教材。每天接触的全都是案例。在哈佛商学院教授派珀看来,“商业世界只有问题,没有理论”。通过读案例,可以让学生找到“想问题的感觉”。
所以你看,一个这么经典而庞大的问题库,与实践结合紧密,理论却缺位。这难道不刚好是研究者们的好机会吗?
然而,据吴教授说,他的博士生里面,愿意听他话的,寥寥无几。有个叫黄涛的听了他的话,真的跑去读案例,于是成了他最为得意的学生。发展得非常好。
看来,听老师的话,有时候也是对的。是吧?
协同导向
暑期学校的最后一天。主办方把Paul Pavlou请了过来。他当时从上一站南非出发,飞了41个小时,到达了哈尔滨。
哈工大的张晓飞博士和华中农大的何德华老师都在课前跟我讲过,Paul是个很牛的学者。只是他们认为学术圈里的掌故,应属于默会的知识,因而并没有具体告诉我他究竟有多牛。
但我这个外行,恰巧就对本应默会的知识一无所知。所以当我看到Paul的演讲,嘴巴张大到合不拢了。
别人做学术报告,顶多是用自己的几篇文献来讲解具体的研究。或者把心得和其他学者的观点熔于一炉,娓娓道来。
Paul不是。
他介绍了移动互联网领域的几大重点研究方向。每一个研究方向,都对目前的一些顶级期刊文献进行点评。
他很谦卑地说,因为批评别人的作品是一件比较困难的事儿。因此——就批评自己的作品吧。
然后,在每一个类别下面,他都批评了几篇自己的作品。这样的幻灯页面有十好几页。他确实没有办法细讲,因为他发表过的顶级期刊(MISQ, ISR和MS等)研究成果过多。每篇讲多了的话,肯定得超时。
作为图情专业的研究生,你们平时主要关注国内文献(虽然我不止一次告诉你,要看英文文献。尤其是中文文献找不到,不意味着文献找不到),可能对这些国外期刊不是很熟悉。为了让你们能有个切身感受,咱们打个比方。好比一位国内图情学者,介绍自己近几年的研究,列出了三四十篇文献,全都发表于《中国图书馆学报》、《情报学报》、《中国社会科学》和《管理世界》上……明白有多厉害了吧?
惊呆之后,我决定问个问题。中场休息的时候,坐在第一排的我一个箭步蹿上台,问了这个颇为幼稚的问题:
“别的学者总说质量和数量是一对矛盾,要做权衡取舍。我看你在保证质量的同时有这么高的数量。你一定有秘诀吧?”(还不快快告诉我?!)
Paul笑了。说其实没有什么秘诀,也就是3条:1. 得努力工作,不能过于努力而耽误了生活,但是也得足够努力;2. 研究的问题要通俗易懂和有趣,这样才能做得下去;3. 要找靠谱的合作者。其实最近这几年他并不想出这么多文章,但是合作者(包括同事、博士生和刚刚毕业的博士)不干。他们要拿终身教职,所以一个个干劲儿十足,拽着他往前冲。
我一下子明白了合作者的重要性。他们所能提供的,不仅仅是独特的知识、方法和观察视角,也有一种动力。
然而,为什么Paul这种质量与数量齐飞的情况并不多见呢?
从他的讲述中,我悟出了关键点——扎实的基本功。他的博士做了很长的时间,在这么长的博士基本功训练里,他什么研究方法都要认真掌握,然后反复磨练。他能处理一个大领域中不同的科研问题,所以合作的界面非常好,沟通带宽足够高。
对于自己的这种能力,他用了“幸运”一词,但是我相信用他的“努力”一词会更好些。
当他足够优秀,功成名就之时,马太效应会吸引更多优秀的人愿意跟他合作。于是他的声望就达成了一种正反馈循环。这一部分你们要想得到,还需要足够长的时间积累。但是在学期间扎实学些东西,还是很必要的。
从Paul这里我领悟到了许多。然而,因为时间关系,他虽然把一条清晰的脉络展现在了听众的面前,却没有着重去讲他选题的另外一个重要成功心法。幸好,来自佐治亚理工的吴老师给我们补上了这一课。
系统导向
吴教授的问答时间里,我说了一句实话——“您讲之前我都困了,您讲完我都不困了!”
本来嘛,大热天的,一上午听课后,中午刚吃过午饭,1点钟就上课,一直到下午4点,中间只休息一次。下午能不困吗?
但是吴老师却有办法把大家弄得特别精神。因为他非常幽默。
吴老师的讲座里面有两条主线:
- 批评自己的研究生。说因为他跟自己的研究生们讲话没人听,所以跑到世界各地给别人讲,别人听了获得了成功,就可以拿过来当榜样教育自己的学生;
- 夸自己的儿子。吴老师的儿子非常优秀,被藤校提前录取。介绍完儿子的成长经历后,课后问答时间许多老师跑上去问育儿经。搞得吴老师只好推说孩子平时都是太太管教。
但是,他讲自己儿子的故事,却他自己和观众都带来了启发。
将近10年前,他儿子还很小的时候。爷俩喜欢下国际象棋。
吴老师下棋时似乎没有什么风度。最大的乐趣就是一个个吃儿子手里的车马小卒,看着儿子干着急,他乐不可支。
但是,那一次。儿子的举动让他惊呆了。
他依然欢乐地吃儿子手里的棋子。儿子却突然抬头,自信地告诉他“爸爸你输了”。
他吓了一跳,旋即觉得是小孩子的臆想。自己这边兵力充足,子数占优啊。
但是这盘棋的结果,却真的是儿子赢了。
吴老师不解,问儿子凭什么做出的判断?
他儿子说,因为自己的布局已经完成了。虽然损失了一些棋子,但是这个局已经锁定了最终的胜负。
吴老师当时立即悟出了后面几年的科研路径——要布局。
吴老师追求的布局结果,早几年想明白道理的Paul已经做到了。
在一个领域的每一个方向上,都占领关键点。这要求你对于该领域有全面深刻的了解,并且能够预测之后一段时间可能的发展。当你占领了这些战略要冲之后,别的学者的任何研究突破,都必须以你这些关键点作为基石。那么被引率想不高都难啊。
清华大学的宁向东教授就一直在强调“格局”二字。在他看来,“格”是个动词,“局”是名词,作为宾语。
一个领导者所做的,应该是具备“格局”的能力和智慧,才能充分地调动各种资源为自己所用。
而Paul也强调了这个问题,说一个学者,应该具有"entrepreneurship"。也就是说,好的学者也该是好的领导型管理人才。
对于关键点的占领,有趣的例子是科斯的论文。当年科斯提出著名的“科斯定律”那篇论文,因为过于突破传统认知,导致经济学界骂声不绝。但只要打算骂他,就得引用他那篇文章,几十年间他的文章被引用的次数过于惊人。然后科斯就拿到了诺贝尔经济学奖。
看到这里,你是否已经做好写篇文章,被别人痛批40年的准备了?
小结
本文我们总共列举了六种科研选题的导向。其中方法导向你应该避免使用,而其他的五种导向都可以借鉴。
复习一下,它们分别来自于:
- 文献;
- 数据;
- 实践;
- 协同;
- 系统。
要注意它们独特的应用场景,以及和你的现状相结合。
希望这些介绍,对于你的论文选题有所帮助。
但是,即便你用这些套路找到了合适的选题,却也不是完事大吉。
你如何知道你选的题目适合你去做呢?你如何确定你的题目有意义、有价值呢?你的假设如何用最低成本,最高效率来验证呢?
一篇文章,不可能涵盖所有的问题。从专家那里获得的答案和自己的一些思索,我会在后续文章中渐次展开,跟你讨论。
祝夏安!
讨论
除了本文中列出的六种导向,你还知道哪些做科研选题的方略?这些方法你实际使用过吗?有什么值得借鉴的经验,或者应当吸取的教训呢?欢迎留言分享给大家,我们一起交流讨论。