1. 什么是论文
经济管理类的论文必须依靠十分严谨的数理逻辑或统计推断,一步步得出结论,不能随意发表议论、轻率地下结论。
论文的价值在于创新:原创性(originality)、新颖性(novelty)、对现有文献的边际贡献(marginal contribution)
2. 规范的实证研究论文步骤
准备阶段
- 首先要掌握本专业的理论,爱因斯坦说:“你能不能观察到眼前的现象取决于你运用什么样的理论,理论决定着你到底能观察到什么。”。本专业理论的学习来自于各个看似枯燥的专业课;
- 其次,进行实证研究需要掌握一定的计量方法和统计分析工具。
选题
- 选题是实证研究的第一步。仅仅知道自己想要研究的领域是“文本分析”是不够的,这不是一个研究问题。对于实证研究来说,研究问题通常是“X对Y的作用”之类的因果关系,如家庭联产承包责任制对经济增长的作用。
- 选题可以来源于理论(如检验资产定价模型是否成立)、对经济现象的观察(如经济报道)、政策的效应(如新劳动法对经济的影响)、对已有文献的改进。
- 如果没有任何的选题思路,可以浏览本专业的顶级一般性期刊(包含本专业各个领域)、顶级专业期刊(针对本专业某个特别领域)。
- 这些期刊的论文往往技术性较强,不需要仔细精读,需要做到的是:当前前沿研究问题、取得的成果、还存在哪些不足、评估研究方法是否可靠、是否有改进空间
- 好的选题标准:具体(研究问题越具体越好)、有趣(吸引力,为什么要关注你的研究问题)、新颖(创新是论文核心,要有边际贡献,新体现在:新的现象、新的计量方法、新的数据集等)、可行(要有相应的数据、技术等帮助研究)。
- 对于“自己能想到的问题,别人都研究过了”这样的问题,可以基于前人的研究改进计量方法、增加新的变量、使用新数据等。
- 对于新手来说,选题要避免被人研究烂的、过于有挑战性的问题;备选研究问题越多越好,因为最终能留下来的没有几个。
探索性研究
- 探索性研究指:在初步确定选题后,通过阅读相关文献的方法来评估选题的新颖性(是否有文献已经做过类似研究?)(这也是为什么许多文献中会这样说:“当前许多研究都关注XXX,而对XXX的研究甚少。”)和可行性(别人的论文数据来源是什么?选题数据是否可得?)。
- 阅读文献的时机:漫无目的的阅读文献不可行。最好是有想做的课题后再系统阅读相关文献。
收集和整理数据
- 数据是实证研究的关键。数据质量的高低影响实证研究的结果,避免garbage in, garbage out
- 用数据做实证研究不要一上来就回归,要对数据进行观察和熟悉(均值、最值、标准差、相关系数等),并根据专业知识判断数据是否合理,是否有异常。整理数据对过程实际上就是数据预处理或数据清洗。
建立计量模型
- 通常来说,一篇好的实证研究论文需要将一个好的故事,然后用数据来证实或检验该故事
- 对于计量模型(回归函数)的具体形式,可以考虑:线性、对数(变量只取正数且成正数增长趋势)、双对数、非线性(边际效应不是常熟)等。在建立模型时,应该尽量使用常识和专业理论。
- 如果不知道怎么建立计量模型,可以参考相关文献中的模型设定。
- 构建模型不能过于简单也不能过于复杂(体现在变量数量的选择上)。
选择计量方法
- 有了计量模型与数据后,可以根据数据特征选择合适的计量方法:若被解释变量是虚拟变量,则可以选择probit或logit;若是面板数据,则可以考虑固定效应、随机效应、时间效应等;若是时间序列数据,先判断是否含单位根,再决定使用相应的计量方法。
- 对于一般的数据,先进行OLS,然后画残差图(看扰动项是否符合经典假定),然后进行严格的检验(是否存在异方差、自相关,并进行相应处理:稳健标准误或GLS);对于时间序列,使用邹检验检验数据是否存在结构变动;另外还应对数据质量进行检验(多重共线性、极端值、弱工具变量等)
- 由于数据的可获得性,遗漏变量问题不可避免。遗漏变量不外乎两种情况:存在且与解释变量相关(需要进行相应处理:增加控制变量、寻找代理变量、使用工具变量);存在但与解释变量不相关(不需要处理,但要解释不相关的原因);面板数据一定程度上可以解决遗漏变量问题,所以有可能的话可以争取面板数据。
- 内生解释变量是另一个常见问题,一般需要使用工具变量。
- 总之,在这一部分需要说明为什么使用某种计量方法。计量是严谨科学的,但是现实数据却不一定满足计量的假设,实证研究需要找到理论与现实的妥协。
解释回归结果
- 回归结果可能很复杂,表上的数字很多,但是只要注意真正有价值的信息即可(如回归系数的大小及正负、p值、样本容量、拟合优度等)
- 解释回归系数时要注意区分统计显著性与经济显著性
- 统计显著性主要看p值,一般p值小于0.05即为显著(“该系数在统计上显著不为0”),否则不显著(“统计上可将此系数视为0,即不存在”);
- 经济显著性主要看回归系数的绝对值的大小和正负。举例:一元线性回归分析教育年数对工资的影响,得到教育年数的回归系数为0.096,被解释变量:工资的对数,可以理解为工资百分比的变化。所以解读为:每增加一年的教育,工资增加9.6%。这在经济上是十分显著的,说明受教育程度对工资有显著影响。
- 若统计上显著而经济上不显著,则解读为:解释变量对被解释变量影响很小(经济不显著),尽管这种影响被估计的很精确(统计上显著)
- 出现关键解释变量不显著,甚至回归系数的大小、符号与预期相反。可能有如下三种原因:
- 计量方法不当:遗漏变量、没有解决内生性问题。(Ps. 内生性到底是什么:一般来说,计量模型的被解释变量应该是内生的,即其值取决于该模型内部;解释变量应该是外生的,即其值不该再与模型内的东西有关系。内生性指的是解释变量与计量模型的误差项相关了。)
- 数据质量有问题。
- 经济理论有问题。实证研究的目的之一就是检验理论,如果其他步骤均正确,发现结果与理论不符,则说明该经济理论存在改进空间,甚至需要放弃该理论。
- 在计量时间中, 研究者经常根据计量结果的好坏来调整模型及其参数,希望得到更好的模型和结果,在写论文时只报道最佳结果,而将调整模型及参数的过程隐去,这其实是数据挖掘的思想。这样做也是可行的。
诊断性检验
- 任何计量方法都有其适用的前提条件,如果前提条件不成立,则该方法无法适用。因此,在估计完模型后,应该对计量方法的前提条件进行诊断性检验,并作出定性说明。
- 举例:即使进行OLS回归,也应该说明解释变量为什么是外生,或遗漏变量偏差为什么不重要。
稳健性检验
- 为了适用特定的计量方法,研究者会提前作出一些假设,但问题是研究结果是否对这些假定敏感(即假定的变动是否会剧烈影响结果的变化)
- 适当改变这些假设,看研究结果是否发生变化,这就是稳健性检验。如改变样本空间、函数形式、计量方法、控制变量、变量定义、数据来源等。
- 之前提到的适用数据挖掘思想得到最佳研究结果的方法可能会存在一些偏差,需要进行稳健型检验,这是高质量实证论文不可或缺的一步。
3. 论文写作
标题、作者、摘要、关键字
- 标题:概括论文内容、简洁而有吸引力
- 标题下是作者姓名。作者单位、联系方式等都会放在脚注里。
- 若有多位作者,一般会选择一位负责投稿、联系编辑的作者称为通讯作者。
- 标题和作者名之下,就是论文的摘要。摘要约为100字,主要说明研究目的/意义、研究方法、研究结论等。【读者看论文时,也要先看摘要、引言、结论来判断是否要继续读这篇文章。】
- 摘要通常在作者完成论文主题后添加,因为此时会对论文有整体把握。
- 摘要下放关键字。
引言
- 引言是全文的第一部分,但是一般放在最后写。原因一是引言包含了全文卖点,需要反复斟酌与修改;原因二是引言概括了全文的内容,所以需要写完全文后才能概括。
- 引言包括的内容有:研究问题、该问题的意义、使用的数据、实证研究的计量方法、研究结论、本研究与已有文献的关系、本研究的创新点与边际贡献。另外,引言的最后通常会提供全文的路标,告诉读者第几节讲什么,方便读者阅读。
- 写引言的套路有两个:
- 传统套路:提出研究问题后,先回顾现有文献,找出现有文献的不足之处,然后顺势引出本研究的方法与边际贡献。该方法优点在于逻辑性强、可以体现学术发展脉络;缺点在于读者需要先看文献回顾。
- 现代套路:提出研究问题,然后开门见山,提出研究方法与结论,然后再进行文献回顾与边际贡献的阐述。这种直奔主题的方法现在比较流行。
文献回顾
- 若文献回顾较短,可以加入引言部分;若文献回顾较长,可以单独开一节。
- 文献回顾一般按照出现时间先后顺序来写。
- 文献回顾切忌罗列文献而没有进行分析。
- 文献回顾的根本目的是理清本研究与前人研究的关系,以凸显本研究的边际贡献。
- 在文献回顾时,要肯定这些文献的贡献,但是也要之处文献的不足(因为要凸显自己研究的边际贡献),之处不足时要注意语气态度的谦虚。
背景介绍(background information)或理论框架(theoretical framework)
- 实证论文不只是找数据跑结果,而是需要讲一个完整的故事,才能更有说服力。
- 举例:一篇论文研究土豆对人口增长的影响,在背景介绍部分该论文提到了土豆的优点、土豆如何传播至影响人群等。
- 如果可以,该部分可以引入专业理论模型或思想框架(如读过的房价预测论文,提到了房价预测理论)。但是对于实证论文,理论部分不应该太过复杂、宣兵夺主。如果研究问题现象复杂,没有现成理论,可以根据常识直接写出计量模型或回归方程。
数据说明
- 应该详细说明数据来源,并评估其可靠性:介绍数据来源的详细程度,应该可以使读者按图索骥得到数据,以便他们研究过程复现。
- 若对原始数据进行了处理和加工,也应该详细说明。
- 若数据质量有问题,也应该说明,并描述对你研究的影响。
- 介绍数据来源后,应该以表格形式给出数据的大小、最值、均值、标准差等统计特征,有时还会提供关键变量的相关系数矩阵,作为变量间关系的初步证据。
计量模型与评估方法
- 需要根据数据和研究问题,给出计量模型(即回归方程)。一般都是根据一个基准模型(baseline or benchmark),在此基础上对模型设定进行变化(增加/替换变量等)
- 此部分的关键是究竟用什么计量方法来识别主要变量间的因果关系。初学者常犯的错误是直接使用某个计量模型而不说明为什么使用(每个计量模型的使用都是有前提条件的,需要进行甄别和判断)
- 若存在两种计量模型都可使用,则应该在研究中都使用,再通过稳健型检验进行比较。
回归结果
- 介绍计量方法之后,即可汇报回归结果,回归结果通常以表格的方式呈现。
- 回归结果包括以下信息:被解释变量与解释变量的名称、回归系数估计值、标准误(或t统计量)、星号表示的统计显著性、相关统计量(样本容量、拟合优度等)
- 同时需要对回归结果进行解读,包括回归系数的统计显著性与经济显著性、系数符号是否符合预期。
稳健型检验
- 仅仅汇报回归结果是不够的,因为变量的显著性可能在不同的模型设定下变化,因此需要进行稳健性检验,只有在不同模型设定下都得到相似的结果,才是稳健可信的。
- 稳健型检验的篇幅若比较短可放在回归结果中,若比较长可以另起一节。
结论
- 结论是论文的最后部分,是对论文的总结。
- 结论部分概要地回顾本论文的研究问题、计量方法、主要结论、边际贡献、本论文的局限性与改进空间。
- 再次强调:阅读文献一般会先看摘要、引言、结论,再决定是否通读论文,因此这三部分的撰写很重要。
参考文献
- 文中所有引用的论著,都应该出现在参考文献中;反之,参考文献中出现的论著,都是被正文中引用过的。
- 参考文献的排列顺序一般按照作者姓氏的字母(拼音)进行排列,同级字母(拼音)或相同作者的话,按照著作发表时间排序。
- 不同出版物对参考文献的格式不尽相同,需要提前问清楚。
附录
- 主要收录不影响正文阅读、篇幅较长的内容
- 如:理论文章、证明推导、实证研究的数据说明、问卷调查的具体问卷等。
4. 写作风格
- 实证研究的科研论文属于科学论文,要注意行文的严谨、逻辑、流畅性,避免出现口语表达。
- 对于论文中的方程式,可使用Word中的“插入”选项卡中的“公式”进行编辑
- 论文中所有单独成行的方程式,都应按顺序编号,如(1)、(2)、(3)
- 论文的表格题注在表格上方,图片题注在图片下方
- 可以阅读与模仿经典论文的写作风格与结构,“熟读唐诗三百首,不会作诗也会吟。”