论文标题:Bad Actor, Good Advisor: Exploring the Role of Large Language Models in Fake News Detection
论文链接:https://arxiv.org/abs/2309.12247
论文来源:AAAI2024
作者单位:中国科学院计算技术研究所、中国科学院大学、新加坡国立大学
摘要
检测假新闻需要对多种线索有着敏锐的洞察力和对真实世界背景有着深刻的理解,这对于基于小语言模型(SLMs)的检测器来说仍然是一个挑战,因为它们在知识和能力方面存在局限性。最近大语言模型(LLMs)的进展在各种任务中表现出色,但LLMs是否以及如何在假新闻检测中发挥作用仍然是未被深入探讨的问题。
在本文中,我们调查了LLMs在假新闻检测中的潜力。首先,我们进行了实证研究,发现像GPT 3.5这样的复杂LLM通常能够揭露假新闻并提供令人满意的多重理由,但仍然不如SLM,即经过微调的BERT。我们的后续分析将这样的差距归因于LLM无法适当选择和整合理由以做出结论。基于这些发现,我们提出当前的LLMs可能不能替代在假新闻检测中经过微调的SLMs,但可以通过提供multi-perspective instructive rationales而成为SLMs的良好顾问。
为了实现这一提议,我们设计了一种 adaptive rationale guidance network for fake news detection (ARG),其中SLMs选择性地从LLMs的理由中获取新闻分析的见解。我们通过蒸馏进一步推导出ARG的无理由版本,即ARGD,该版本在不查询LLMs的情况下服务于成本敏感的场景。在两个真实世界数据集上的实验证明,ARG和ARGD均优于三种baseline methods,包括基于SLM、基于LLM和小型和大型语言模型的组合。
概述
尽管已经取得了很多进展,但对于当前的模型来说,理解和描述假新闻仍然是一个挑战。这是由于新闻制造过程的复杂性所致:假新闻制作者可能操纵新闻的任何部分,使用多种写作策略,并受到难以捉摸的潜在目标的驱使。因此,为了保持对假新闻检测的有效性和普适性,理想的方法需要具备以下特点:1)对于多样线索(例如,风格、事实、常识)有着敏锐的洞察力;2)对于真实世界背景有着深刻的理解。
近期的方法通常利用预训练的小语言模型(SLMs),如BERT和RoBERTa,以理解新闻内容并提供基本的表示,再加上可选的社会背景、知识库或新闻环境等辅助信息。SLMs确实带来了改进,但它们的知识和能力限制也妨碍了对假新闻检测器的进一步增强。例如,BERT是在文本语料库(如维基百科)上进行预训练的,因此在处理需要不包含的知识的新闻时表现较差。
作为对SLMs的新替代方案,大语言模型(LLMs)通常在规模更大的语料库上进行训练,并与人类偏好保持一致,已展现出在各种任务上的令人印象深刻的新兴能力,被认为有望成为通用任务解决者。然而,LLMs在假新闻检测中的潜力仍未得到充分挖掘:
-LLMs是否能够利用其内部知识和能力来帮助检测假新闻?
-我们应该采用什么解决方案以更好地利用LLMs获得更好的性能?
为了回答这两个问题,我们首先对LLMs在假新闻检测中的有效作用进行了深入调查,并试图提供一个实用的LLM-involved解决方案。与现有工作只是简单地提示LLMs根据任务指示提供预测不同,我们进行了详细的实证研究来挖掘LLMs的潜力。具体而言,我们使用了四种典型的提示方法(zeroshot/few-shot/vanilla/chain-of-thought prompting),要求LLM对给定的新闻项进行真实性判断(图1(a)),并发现即使表现最好的基于LLM的方法仍然不如任务特定的经过微调的SLMs。然后,我们对由LLM生成的解释性理由进行分析,并发现LLM能够从多个角度提供合理且信息丰富的理由。通过随后使用perspective-specific prompts诱导LLM,并执行基于规则的判断集成,我们发现理由确实有益于假新闻检测,并将性能不佳归因于LLM无法适当选择和整合理由以得出结论。
基于这些发现,我们提出目前的LLM可能不是对fine-tuned SLM的良好替代品,但可以通过提供有指导性的理由作为良好的顾问,如图1(b)所示。为了实例化我们的提议,我们设计了adaptive rationale guidance (ARG) network,用于假新闻检测,通过从大型LM的理由中选择性地注入有关新闻分析的新见解,将小型LM和大型LM连接起来。 ARG通过蒸馏进一步推导出无理由的ARG-D,适用于在无需查询LLMs的成本敏感场景中。对两个真实世界数据集的实验证明ARG和ARG-D优于现有的SLM/LLM-only和组合方法。我们的贡献如下:
详细调查:我们对LLMs在假新闻检测中的有效作用进行了调查,发现LLM在真实性判断方面表现不佳,但在分析内容方面表现良好;
新颖而实用的解决方案:我们设计了一种新颖的ARG网络及其经过蒸馏的版本ARG-D,通过从LLM生成的理由中选择性地获取对SLMs有启发作用的见解,从而补充了小型和大型LMs,该方案在广泛实验中表现出优越性;
有用的资源:我们从GPT-3.5构建了一份关于假新闻检测的理由收集,涵盖两种语言(中文和英文),并将其公开提供[1],以促进进一步的研究。
Is the LLM a Good Detector?
在这一部分,我们评估代表性的LLM,即GPT-3.5,在假新闻检测中的性能,以揭示其判断能力。我们利用四种典型的提示方法,并与在该任务上经过微调的SLM(这里是BERT)进行比较。
实验设置
数据集:我们使用了中文数据集Weibo21(Nan等,2021[2])和英文数据集GossipCop(Shu等,2020[3])进行评估。按照现有的研究(Zhu等,2022;Mu等,2023),我们对数据集进行了去重和时间分割的预处理,以避免由于数据泄漏导致可能的性能过高评估。表1呈现了数据集的统计信息。
大型语言模型:我们评估了由OpenAI开发的GPT-3.5-turbo,这是支持流行聊天机器人ChatGPT(OpenAI,2022)的LLM。由于LLMs的参数规模较大,使得对其进行任务特定的微调几乎不可能,因此我们使用提示学习范式,即LLM通过包含指导或少量演示的提示学习任务。具体而言,我们利用以下四种典型的提示方法来引出LLM在假新闻检测中的潜力(图2):
小语言模型:我们采用预训练的小语言模型BERT(Devlin等,2019)作为代表。具体而言,我们将文本的最大长度限制为170个标记,并分别使用Transformers包中的chinese-bert-wwm-ext和bert-base-uncased来进行中文和英文的评估。
大模型和小模型的实验对比
表2呈现了GPT-3.5-turbo在四种提示方法和经过微调的BERT上的性能,涉及两个数据集。我们观察到:
- 尽管LLM通常被认为是强大的,但在所有四种提示方法中,LLM的性能都不如经过微调的SLM。在中文数据集中,SLM相对于LLM有3.8%∼11.3%的增加,在英文数据集中为9.0%∼34.6%,表明LLM缺乏任务特定的知识,而SLM在微调过程中学习到了相关知识。
- Few-shot版本胜过Zero-shot版本,表明任务样本的重要性。然而,引入一些样本仅仅减小了与SLM的差距,而没有达到或超过SLM的性能。
- 思维链提示通常带来额外的性能提升,特别是在英文数据集的Zero-shot设置下(+17.3%)。然而,我们也观察到一些情况下链状思维提示导致性能下降。这表明有效利用理由可能需要更谨慎的设计。
总体而言,考虑到LLM的不理想性能和相对于SLM更高的推理成本,目前的LLM并不是在假新闻检测中替代任务特定SLMs的“足够好”的检测器。
对LLM理由的分析
尽管LLM在新闻真实性判断方面表现不佳,我们还注意到通过Zero-shot思维链提示生成的理由展示了一种独特的多角度分析能力,这对于SLM来说是具有挑战性且罕见的。为了进一步探索,我们从每个数据集中随机抽取了500个样本,并根据LLM执行新闻分析的角度对它们进行手动分类。表3呈现了按角度和案例统计的结果。我们观察到:
- LLM能够从各种角度生成类似人类的理由,如文本描述、常识和事实性,这符合在假新闻检测中对多样线索的敏感洞察力和对真实世界背景的深刻理解的要求。
- 在使用特定角度的子集上的检测性能高于在整个测试集上的Zero-shot思维链提示的结果。
- 从事实性角度进行的分析导致性能低于平均水平,表明使用LLM进行基于其内部记忆的事实性分析是不可靠的。
我们进一步调查了LLM在被要求从特定角度对整个测试集进行分析时的性能。从表4的第一组中,我们可以看到,通过单一角度分析引发的LLM的判断仍然是有希望的。与全面的Zero-shot思维链提示设置相比,基于单一角度的LLM在中文数据集上表现相当,并在英文数据集上表现更好(对于常识角度的情况)。这些结果表明,LLM整合来自不同角度的理由的内部机制对于假新闻检测并不是有效的,它限制了理由的充分利用。在这种情况下,将小型和大型LMs结合起来相辅相成是一个有前景的解决方案:前者可以从后者的分析能力中受益,而后者可以通过前者获得的任务特定知识得到增强。
为了展示这种解决方案的优势,我们在两个基于单一角度的LLMs和BERT之间应用了多数投票和Oracle投票。结果表明,如果我们能够适应性地结合它们的优势,那么我们可能会获得比之前提到的任何LLM-/SLM-only方法更好的性能。也就是说,通过提供理由,LLM可能成为SLM的良好顾问,最终提高假新闻检测的性能。
ARG: Adaptive Rationale Guidance Network for Fake News Detection
图3概述了ARG及其适用于成本敏感场景的rationale-free版本ARG-D。ARG的目标是赋予小型假新闻检测器以能够自适应地选择有用的理由作为最终判断的参考。给定一条新闻及其相应的LLM生成的理由(文本描述)和(常识),ARG首先使用SLM对输入进行编码(图3(a))。随后,通过预测LLM的判断,ARG建立新闻-理由协作,丰富新闻-理由特征交互,并评估理由的有用性(图3(b))。最后,交互特征与新闻特征一起聚合,用于最终判断是否为假新闻(图3(c))。ARG-D是通过对在LLM不可用的情况下进行的ARG进行蒸馏派生的(图3(d))。
Representation
我们分别使用两个BERT模型作为新闻和理由的编码器,以获取语义表示。对于给定的新闻项目和两个相应的理由和,它们的表示分别为、和。
News-Rationale Collaboration
新闻-理由协作的步骤旨在在新闻和理由之间提供丰富的交互,并学会自适应地选择有用的理由作为参考,这是我们设计的核心。为了实现这一目标,ARG包括三个模块,下面详细说明并以文本描述理由分支为例说明:
News-Rationale Interaction
为了实现新闻和理由之间的全面信息交流,我们引入了一个具有双交叉注意力机制的新闻-理由交互器,以促进特征的交互。交叉注意力可以描述为:
其中, , 。在给定新闻和理由的表示的情况下,该过程如下:
其中,AvgPool(·)是对通过交叉注意力输出的表示进行平均池化,以获取一个文本表示的过程。
LLM Judgement Prediction
理解给定rationale所暗示的判断是充分利用理由背后信息的先决条件。为此,我们构建了LLM判断预测任务,其要求是根据给定的rationale预测新闻真实性的LLM判断。我们期望这能够加深对rationale文本的理解。对于文本描述rationale分支,我们将其表示输入到LLM判断预测器中,该预测器使用多层感知机(MLP)进行参数化:
其中,和分别是LLM的实际判断和其预测。损失是交叉熵损失。对于常识rationale 的情况也是类似的。
Rationale Usefulness Evaluation
不同角度的理由(rationale)的有效性在不同的新闻项目中有所不同,不适当的整合可能导致性能下降。为了使模型能够自适应地选择适当的理由,我们设计了一个理由有用性评估过程,在这个过程中,我们评估不同理由的贡献并调整它们的权重以进行后续的真实性预测。这个过程包括两个阶段,即评估和重新加权。在评估阶段,我们将新闻感知的rationale向量输入到rationale usefulness evaluator(由MLP参数化)中,以预测其usefulness 。根据假设: "rationales leading to correct judgments are more useful", 我们使用 judgment correctness 作为
rationale usefulness的标签。
在重新加权阶段,我们将向量输入到一个MLP中,以获得权重值,然后使用它来重新加权具有理由感知的新闻向量。具体过程如下:
我们还使用注意力池化将表示矩阵转换为向量。
Prediction
根据上一步的输出,我们现在聚合新闻向量和具有理由感知的新闻向量、以进行最终的判断。对于具有标签的新闻项目,我们使用不同的权重来聚合这些向量:
其中,和是可学习的参数,范围从0到1。是融合向量,然后输入到MLP分类器中,用于最终预测新闻真实性:
总损失函数是上述损失项的加权和:
Distillation for Rationale-Free Model
ARG需要为每个预测发送请求到LLM,这对于成本敏感的场景可能是不可承受的。因此,我们尝试构建一个rationale-free的模型,即ARG-D。基本思想是将理由中的知识模拟和内化到一个参数模块中。如图3(d)所示,我们初始化新闻编码器和分类器与ARG中的相应模块,并训练一个rationale-aware feature simulator(使用一个multi-head transformer block实现)和一个注意力模块来内化知识。除了交叉熵损失之外,我们还使用均方估计损失让特征模拟ARG中的,如下:
实验部分
Baselines
比较了三组方法:
- G1(仅LLM):我们在表2中列出了每个数据集上的最佳设置的性能,即在中文中是few-shot,在英文中是few-shot CoT。
- G2(仅SLM):1) Baseline:使用与第2节中相一致的设置的vanilla BERT-base模型。2) EANN-T(Wang et al., 2018[4]):通过辅助对抗训练学习有效信号的模型,旨在尽量消除与事件相关的特征。我们将出版年作为辅助任务的标签。3) Publisher-Emo(Zhang et al., 2021[5]):将一系列情感特征与文本特征融合以进行假新闻检测的模型。4) ENDEF(Zhu et al., 2022[6]):通过因果学习消除实体偏见,以更好地推广到分布移位的假新闻数据。这个组中的所有方法都使用相同的BERT作为文本编码器。
- G3(LLM+SLM):1) baseline+rationale:它将新闻编码器和理由编码器的特征连接起来,并将它们输入MLP进行预测。2) SuperICL(Xu et al., 2023[7]):它将SLM作为LLM的上下文学习的插件,通过将每个测试样本的预测和置信度注入到提示中。
实验结果
结果分析
为了调查ARG(-D)的额外收益应归因于哪一部分,我们对ARG(-D)相对于vanilla BERT的额外正确判断的样本进行了统计分析。从图4中,我们观察到:1) ARG(-D)和LLM之间重叠样本的比例超过77%,表明ARG(-D)可以利用(并吸收)LLM中有价值的判断知识,即使其性能不尽如人意。2) LLM从两个角度正确判断的样本贡献最大,表明更多的多样化理由可能会增强ARG(-D)的训练。3) 20.4%和22.1%的正确判断应归因于模型本身。我们推测它根据给定知识的错误判断产生了一些种类的“新知识”。
实际成本分析
我们展示了一种可能的在实际系统中平衡性能和成本的模型迁移策略。我们模拟了默认情况下使用更经济的ARG-D,但查询更强大的ARG来处理部分数据的情况。如图5所示,通过仅向ARG发送23%的数据(根据ARG-D的置信度),我们可以实现macro-F1为0.784,这与完全使用ARG的性能相同。
结论
我们调查了大型语言模型是否有助于假新闻检测,以及如何正确利用它们的优势来提高性能。结果显示,大型语言模型(GPT-3.5)性能低于任务特定的小型语言模型(BERT),但能够提供信息丰富的理由,并在新闻理解方面补充小型语言模型。基于这些发现,我们设计了ARG网络,以灵活地结合小型和大型语言模型的各自优势,并开发了其rationale-free版本ARG-D,用于成本敏感的场景。实验证明了ARG和ARG-D的优越性。
-
Qiong Nan, Juan Cao, Yongchun Zhu, Yanyan Wang, and Jintao Li. 2021. MDFEND: Multi-domain fake news detection. In Proceedings of the 30th ACM International Conference on Information and Knowledge Management. ↩
-
Kai Shu, Deepak Mahudeswaran, Suhang Wang, Dongwon Lee, and Huan Liu. 2020. FakeNewsNet: A
data repository with news content, social context and spatiotemporal information for studying fake news on social media. Big data, 8:171–188. ↩ -
Yaqing Wang, Fenglong Ma, Zhiwei Jin, Ye Yuan, Guangxu Xun, Kishlay Jha, Lu Su, and Jing Gao. 2018. EANN: Event adversarial neural networks for multi-modal fake news detection. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pages 849–857. ↩
-
Xueyao Zhang, Juan Cao, Xirong Li, Qiang Sheng, Lei Zhong, and Kai Shu. 2021. Mining dual emotion
for fake news detection. In Proceedings of the web conference 2021, pages 3465–3476. ↩ -
Yongchun Zhu, Qiang Sheng, Juan Cao, Shuokai Li, Danding Wang, and Fuzhen Zhuang. 2022. Generalizing to the future: Mitigating entity bias in fake news detection. In Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 2120–2125. ↩
-
Canwen Xu, Yichong Xu, Shuohang Wang, Yang Liu, Chenguang Zhu, and Julian McAuley. 2023. Small models are valuable plug-ins for large language models. arXiv preprint arXiv:2305.08848. ↩