新闻推荐(9):Knowledge-Aware Document Representation for News Recommendations

前言

  • Recsys 2020中一篇关于新闻推荐的长文
  • 官方代码: https://github.com/danyang-liu/KRED
  • 来自微软亚研和中科大的合作
  • 关键问题/背景:
    • 新闻内容中包含有实体,是重要的辅助信息
    • 工业新闻推荐系统包含各种关键应用,如个性化推荐、逐条推荐、新闻分类、新闻流行度预测和本地新闻检测。
    • 通过合并实体能更好地表征文档/新闻,统一构建这些应用(多任务学习)。
    • 然而,现有的文档表征模型要么在不考虑实体的情况下表示新闻文章,要么依赖于特定类型的文本编码模型(如 DKN) ,从而降低了文档表征的泛化能力和效率。
  • 主要工作:
    • 利用KGAT模型利用文章内的实体信息
    • 构建多任务训练框架,将推荐与其他多个相关任务协同训练

模型

1. 知识图谱利用

包括两部分:实体表征+上下文嵌入:

对于一篇新闻,取其标题及正文内的实体,每个实体都通过KGAT进行近邻聚合(知识图谱预先通过TransE训练得到实体和关系嵌入)

KGAT对实体进行聚合的原理如下:

在得到聚合后的实体表征后,进行上下文信息的利用;文中将实体的频率信息(实体出现的频率,分段为20类)、位置信息(标题还是正文)与类别信息(实体类别比较多:公司/人物/等等)利用嵌入编码,加到实体嵌入中:

2. 特征提取(Information Distillation)

一个实体的最终重要性不仅取决于其自身的信息,而且还受到文章和文章主题中共同出现的其他实体的影响。

例如,假设有两篇与 a 市相关的新闻报道。第一篇文章报道了一位著名的音乐明星将在 a 市举办音乐会,第二篇文章报道了 a 市发生的强烈地震。显然,前一篇文章的关键实体是名人,而后一篇文章的关键实体是地点。文中使用了一种简单的注意机制,将一篇新闻所有实体的信息合并到一个输出向量中。如下所示:实体嵌入逐一和新闻向量做计算,然后softmax加和:


最后将注意力聚合得到的向量和新闻原始的特征表示进行组合

新闻原始表征v_d可以使用Bert/LDA等模型构建。

3. 多任务学习

前面提到了多种预测任务:新闻推荐、i2i推荐、新闻流行度预测、新闻分类预测、本地新闻预测(分类)
采用共享参数的形式进行,仅针对不同的任务设计不同的预测器:

  • user2item推荐

    注:其中的用户向量是使用注意力聚合将用户看过的新闻向量进行加和得到的

  • item2item推荐:新闻向量的余弦相似度
  • 其他任务:

最后模型的优化目标也是pairwise形式的:

不同任务的Loss如下:

为了避免在结合不同任务的损失时引入新的超参数,文中使用了两阶训练方法来进行多任务学习:

  • 第一阶段:每个batch交替训练不同的任务
  • 第二阶段:选取目标任务的数据来得到具体的模型(u2i推荐)

实验

MSN数据集上进行的实验(开源数据集:MIND,但上面缺少关键的知识图谱三元组信息)

文中还对嵌入效果进行了可视化,可以看到对于不同类别的文章,KRED的效果分布更加清晰

案例研究:KRED的实体重要度分配:

总结

本文提出的KRED着眼点在于新闻的表征上,利用KGAT聚合新闻实体信息,并且整合了其他上下文信息;此外利用多任务学习的思想进一步提高了模型效果。但在用户建模上没有新的思路,可以考虑跟上一篇文章结合一下,更好把知识图谱应用起来。

END

本人简书所有文章均为原创,欢迎转载,请注明文章出处 。百度和CSDN等站皆不可信,搜索请谨慎鉴别。技术类文章一般都有时效性,本人习惯不定期对自己的笔记/博文进行更新,因此请访问本人简书主页查看最新信息https://www.jianshu.com/u/40d14973d97c

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343