DRN: A Deep Reinforcement Learning Framework for News Recommendation
Citation: 232 (2021-08-28)
1. Motivation
在新闻推荐系统中,新闻过时速度很快(不然也就不是新闻了:)),而用户的浏览兴趣可能也是随之很快的。因此好的新闻推荐系统可能需要会采用online learning这样的方法来及时更新用户、新闻之间的复杂的交互关系(interactions)。但这样的方法可能有一个问题,就是只考虑了当前的reward,即时的ctr等指标,不能考虑到长远的用户体验,平台发展等因素;从而自然地引入了考虑长期reward的强化学习算法。
DQN (Deep Q-learning)Network提供了深度强化学习的一个很好的示例。
本文的主要贡献:
(1)基于DQN设计了一个深度强化学习新闻推荐系统,同时考虑当前reward(ctr)以及长远reward(user activeness);
(2)采用一个更有效的exploration method: Dueling Bandit Gradient Descent,基于MAB或者UCB的方法因为是纯粹随机探索,会损害一部分用户的体验。
(3)证明了深度强化学习方法在线上有收益。
2. DRN
2.1 Framework
整个系统,分成离线部分与在线部分:
离线部分负责先训练一个DQN。
User特征与Context特征用来表示state,User news交叉特征与Context特征用来表示action。
系统主体部分是在线部分。在主体部分,分成minor更新与major更新。
每次有行为日志就进行minor更新;每隔一个相对比较长的时间从保存近期行为日志与reward的memory里采样样本,然后进行major更新。
本文考虑的reward由短期reward ctr与长期reward用户活跃度(user activeness)构成。作者设计了一个计算user activeness的函数,不赘述了。类似地,如果要考虑长期reward,必须有一个量化指标来计算或者表示该reward。
2.2 Exploration
在探索环节,作者指出MAB或者UCB探索部分过于随机,很可能会随机到伤害用户体验的action上;因此,为了克服这个问题,不能过于随机,应该有一个更好的探索依据。作者选择了Dueling Bandit Gradient Descent方法。
对当前的DQN的参数随机扰动,
得到一个新的explore网络DQN'。
DQN与DQN'各自生成一个候选list L与L',然后对这两个list进行概率层面的交叉(interleave),用新得到的L'进行探索。
根据效果来更新网络,如果L'有较好的反馈效果,agent将会让Q向Q'方向更新,否则Q保持不变。
这里相当于在模型的相对局部的变化范围做explore,效果因此好于漫无目的的随机探索。
3. Experiment
在线实验显示本文提出的深度强化学习算法有明显收益。
优点:
(1)能将深度强化学习真正应用到推荐系统,可以考虑长期reward,能考虑一些不可导的目标,也使用了比随机探索更好的探索方式。
思考:
(1)如果长期reward不可导,实际中怎么确保模型收敛?
(2)保留日志与反馈的检索系统需要怎么设计,要保存多久的日志才比较好?
4. References
[1] Zheng, Guanjie, et al. "DRN: A deep reinforcement learning framework for news recommendation." Proceedings of the 2018 World Wide Web Conference. 2018.