大家好!今天我们要聊一个非常火热的话题:AI技术如何影响学术论文的同行评审。最近,《自然》杂志一项报道显示,可能有越来越多的研究人员在利用像ChatGPT这类AI聊天机器人来帮助他们进行同行评审工作。
这项研究发表在arXiv预印本上(https://arxiv.org/abs/2403.07183),研究者们分析了自ChatGPT发布以来,提交给四个大型计算机科学会议的会议论文的同行评审报告。他们发现,高达17%的评审报告可能经过了AI聊天机器人的大幅修改。但目前还不清楚,研究人员是使用这些工具从头开始构建评审,还是仅仅用来编辑和改进已有的草稿。
我们都知道,AI聊天机器人有时候会生成误导性或编造的信息,这对于科学出版来说是一个巨大的挑战。毕竟,我们期望的是有经验的人类研究者来评审这些论文。AI聊天机器人有时候会“幻想”,我们很难判断它们何时在“胡说八道”,何时在提供真实的信息。
该研究涉及的会议包括即将在维也纳举行的第十二届国际表征学习大会,以及在新奥尔良、亚特兰大和新加坡举办的其他三个重要会议。尽管《自然》杂志试图联系这些会议的组织者,但没有得到回应。
由加州斯坦福大学的计算机科学家领导的团队开发了一种技术,通过识别AI比人类更常用的形容词来识别AI撰写的文本。通过比较分析ChatGPT发布前后提交给相同会议的超过146,000篇同行评审中形容词的使用情况,发现某些积极形容词的使用频率显著增加,例如“值得称赞的”、“创新的”、“细致的”、“复杂的”、“显著的”和“多功能的”。如果评审给予会议论文较低的评级,或者在截止日期临近时提交等,那么这些评审中最有可能包含这些形容词,因此最有可能是AI由聊天机器人参与撰写。
Springer Nature出版社的一位发言人表示,他们要求同行评审者不要将手稿上传到生成性AI工具中,因为这些工具仍然有“相当大的局限性”。Springer Nature还在探索为同行评审者提供安全的AI工具来指导他们的评估。
伦敦大学的文献计量学官员表示,研究中的这些流行词汇的增加“真的非常惊人”。这项工作启发他对2015年至2023年间发表的同行评审研究中某些相同形容词以及一些副词的使用情况进行了分析。分析显示,自ChatGPT出现以来,包括“值得称赞的”、“细致的”和“复杂的”在内的某些术语的使用显著增加。研究估计,至少有60,000篇2023年发表的论文的作者在某种程度上使用了AI聊天机器人,这占到了当年所有学术研究发表量的1%以上。
从结果上看,研究不主张作价值判断,也不会给出结论说明使用AI工具审稿一定是好或是坏,这里值得我们注意的是,在出现明确的规范前,我们要意识到存在AI参与生成或修改同行评审的这种情况,以及AI工具在学术出版领域的使用趋势可能会进一步上升。