论文标题:GAMC: An Unsupervised Method for Fake News Detection using Graph Autoencoder with Masking
论文链接:https://arxiv.org/abs/2312.05739
论文来源:AAAI2024
作者单位:西北工业大学
摘要
这篇论文介绍了一种使用图掩码自编码器和对比学习的无监督假新闻检测技术GAMC。通过利用新闻传播的内容和上下文作为自监督信号,本文的方法消除了对有标注数据集的需求。通过增强原始的新闻传播图,用图编码器进行编码,并使用图解码器进行重构。本文设计了一个独特的复合损失函数,包括重构误差和对比损失。本文方法的贡献包括引入自监督学习到假新闻检测中,提出了一个整合两个不同损失的图自编码器,并通过实际数据集实验证明了我们方法的有效性。
方法
数据增强
- 节点特征掩盖。具体过程和GraphMAE一致(略)。
- 连边丢弃。具体过程和GraphCL一致(略)。
每一种数据增强策略做两次。最终形成两个增强图。
图编码器
选取了一个两层的GIN,对两个增强图进行编码得到节点隐层表示和。
由图编码器得到的表示经过池化之后可以直接进行假新闻的分类。公式上看用的是Sum池化:
最终得到图的全局表示。
图解码器
解码器之前重掩码:
将重掩码之后的节点表示和输入到图解码器,得到重构表示和。
不能说和GraphMAE相似了,只能说是一模一样~
损失函数
损失函数的设计既希望重构损失最小,也希望对比损失最小。
- 重构损失:用的是MSE均方误差:
(疑问:这里为什么不用GraphMAE的放缩余弦误差SCE而用MSE了?) - 对比损失:最小化来自相同传播图产生的两个重构图之间的差异:
(疑问:这里为什么用重构图和计算对比损失而不是用和?) - 总损失:
(疑问:两个损失都是要最小化,中间为什么用相减而不是相加?)
在自监督训练完成后,图编码器得到的表示,使用支持向量机SVM预测最终标签。