斯坦福等大学的研究人员把数千篇来自Nature、ICLR等的顶会文章丢给了GPT-4,让它生成评审意见、修改建议,然后和人类审稿人给出的意见相比较。结果,GPT-4 不仅完美胜任了这项工作,甚至比人类做得还好!
结果发现:GPT-4提出的超50%观点与至少一名人类评审员一致;以及超过82.4%的作者都发现GPT-4给的意见很有帮助。
研究者普遍认为,跟人类评审的结果相比,LLM生成的反馈可以帮助提高评审的准确性,减少人类评审员的工作量,通常很有帮助,并打算再次使用该系统。
论文作者 James Zou 总结道:我们仍然需要高质量的人工反馈,但 LLM(大型语言模型) 可以帮助作者在正式的同行评审之前,改进自己的论文初稿。
那么如何让LLM来审稿呢,研究人员首先用GPT-4创建了一个自动pipeline。它可以解析一整篇PDF格式的论文,提取标题、摘要、图表、表格标题等内容来构建提示语。然后让GPT-4提供评审意见。其中需要遵循业内顶尖的期刊会议的审稿反馈形式,包括四个部分 —— 成果是否重要、是否新颖,论文被接受的理由,论文被拒的理由,改进建议。
整体来看,在Nature论文中,GPT-4有57.55%的意见与至少一位人类评审员一致;在ICLR中,这个数字则高达77.18%。并且对于水平较弱的论文来说,GPT-4和人类审稿人之间的重叠率更高。这说明,GPT-4对水平较差的论文的鉴别能力很高。
这项研究有美国110个AI机构和计算生物学机构的308名研究员参与。研究者普遍认为,跟人类评审的结果相比,LLM生成的反馈与之有很大的重叠,通常很有帮助。如果说有什么缺点的话,就是在具体性上稍差一些。
人类评审员的高质量反馈还是不可或缺,但大家可以在正式评审前拿它试试水,弥补遗漏实验和构建等方面的细节。