新闻推荐(9):Knowledge-Aware Document Representation for News Recommendations

前言

Recsys 2020中一篇关于新闻推荐的长文
官方代码： https://github.com/danyang-liu/KRED
来自微软亚研和中科大的合作
关键问题/背景：
- 新闻内容中包含有实体，是重要的辅助信息
- 工业新闻推荐系统包含各种关键应用，如个性化推荐、逐条推荐、新闻分类、新闻流行度预测和本地新闻检测。
- 通过合并实体能更好地表征文档/新闻，统一构建这些应用(多任务学习)。
- 然而，现有的文档表征模型要么在不考虑实体的情况下表示新闻文章，要么依赖于特定类型的文本编码模型(如 DKN) ，从而降低了文档表征的泛化能力和效率。

主要工作：
- 利用KGAT模型利用文章内的实体信息
- 构建多任务训练框架，将推荐与其他多个相关任务协同训练

模型

1. 知识图谱利用

包括两部分：实体表征+上下文嵌入：

对于一篇新闻，取其标题及正文内的实体，每个实体都通过KGAT进行近邻聚合(知识图谱预先通过TransE训练得到实体和关系嵌入)

KGAT对实体进行聚合的原理如下：

在得到聚合后的实体表征后，进行上下文信息的利用；文中将实体的频率信息(实体出现的频率，分段为20类)、位置信息(标题还是正文)与类别信息(实体类别比较多：公司/人物/等等)利用嵌入编码，加到实体嵌入中：

2. 特征提取(Information Distillation)

一个实体的最终重要性不仅取决于其自身的信息，而且还受到文章和文章主题中共同出现的其他实体的影响。

例如，假设有两篇与 a 市相关的新闻报道。第一篇文章报道了一位著名的音乐明星将在 a 市举办音乐会，第二篇文章报道了 a 市发生的强烈地震。显然，前一篇文章的关键实体是名人，而后一篇文章的关键实体是地点。文中使用了一种简单的注意机制，将一篇新闻所有实体的信息合并到一个输出向量中。如下所示：实体嵌入逐一和新闻向量做计算，然后softmax加和：