文章名称
【AAAI-2019】【Renmin University of China/Tencent】Counterfactual Reward Modification for Streaming Recommendation with Delayed Feedback
核心要点
文章旨在解决流式推荐场景中延迟反馈的问题。流失场景要求快速收集训练样本,频繁重新训练推荐模型,这些都与延迟反馈存在冲突。现有方法要么忽略未观测到的反馈,要么利用启发式的方法调整反馈信息,引入了偏差并影响了模型的精度。作者流失推荐看作是序列决策问题,利用batch bandit方法结合反事实重要性采样,每一回合在调整过reward的训练样本上进行训练,并用于对下一个回合的决策进行预测。
方法细节
问题引入
如上所述,流式推荐系统需要及时更新推荐模型,保证模型的时效性。然而,用户的反馈可能是延迟的,影响了流式模型的训练流程,这种现象被称作delayed feedback。作者以优惠券场景为例,说明用户的转化具有较高的延迟,有超过70%的转化超过了1天(也就是当天无法获取),具体统计结果如下图所示,这与(近)实时训练模型的要求冲突了。
Delayed feedback会严重影响现有方法,如LinUCB,的性能。从下图可以看出,随着PRDF(proportion of delayed feedbacks)的提高,模型的average regret显著下降。
解决上述问题的方法大致分为两种,
- 利用在线学习的方法,延迟一段时间进行训练,也就是等到有一定的样本后训练。因为延迟反馈的间隔通常很长,这种延迟通常不能有效提升样本收集的效果,也不能显著提升模型效果。并且,还会影响模型对用户实时兴趣偏好的捕捉。
- 利用一个静态样本集[1, 2, 3, 4, 5](姑且称之为标准集合),来调整样本反馈。但是,这种集合通常是非实时的,因此忽略了流式推荐的动态本质,造成样本偏差(个人感觉也就是没有实时性)。
具体做法
作者提出基于反事实的样本反馈调整方法CBDF。一言以蔽之,
利用生存模型,估计已收集到的反馈的重要性采样权重,利用加权观测反馈的方式估计延迟的反馈,并用生成的反馈训练在线推荐模型。
作者把这个问题转换为一种batch bandit问题,它重复执行如下流程,
- 观测奖励调权;
- 使用修改后的奖励更新batch bandit模型;
- 进行在线推荐;
- 并收集用户反馈以备下一次迭代。
上述batch bandit的流程示意,如下图所示。基于上一阶段模型的推荐结果和用户反馈日志(可能反馈是延迟的),模型每隔数小时或天被增量训练,新的日志信息会进入下一次循环。
该batch bandit可以被定义为7元组。其中,
- 表示上下文信息,包括用户和物品的(当前)特征。
- 表示动作空间,每一个动作代表一个物品被推荐。
- 表示策略(也就是推荐模型),是一个的函数,决定了给定上下文情况下,所有动作被选择的概率分布。
- 表示reward,作者把定义为用户点击(隐式反馈)和用户转化(显示反馈)的线性组合。但通常delay,因此观测数据中并不意味着用户最终没有转化,有可能只是观测时间不够。作者利用分别表示用户是否最终转化,转化是否在被观测到。因此,。
- 表示用户转化时间,如果观测数据将无法获得这个值。作者还提出following-up time 的概念,这个时间间隔是可以用户转化被观测到的时间和每次数据收集时间间隔的最小值,即。如果,则。此外,用户点击的时间戳也会被收集。
- 代表episode,这里的episode是指上述bandit流程执行一次,即模型更新,与用户进行交互并收集新的数据。表示一次收集的数据的数量,也就是与用户交互的次数。一次收集到的数据。
模型按episode收集数据,因此delayed转化数据至少要在episode结束之前收集到才能被观测到,否则会出现的情况。理想情况下,模型应该根据真实的进行训练,而我们只能观测到,因此偏差不可避免。为解决这一问题,作者提出了CBDF。
CBDF
CBDF方法的整体流程如下图所示,其中每一个episode会进行 step在线推荐。调整后的reward记作,得到新数据集。
整体算法的伪代码参见代码实现部分。值得注意的是输入中有counterfactual deadline parameter,这个参数将在下一节继续讲解。
本节讲解了流式推荐系统中,用户转化反馈延迟的问题背景以及作者对问题的抽象建模思路,概括了方法的要点和步骤,下节继续介绍各个步骤的细节。
代码实现
作者提出的Batched bandit的伪代码如下图所示。
心得体会
Batch Bandit
把流式推荐建模为batch bandit问题,是常见的做法之一,不过原有的batch bandit方法更新通常较慢,并且主要利用IS方法来进行optimal policy的学习。作者主要针对的问题是转化反馈延迟的问题,与其他batch bandit方法有所不同,此外在weight的时候,是针对reward进行的,不同于其他的是进行sample调权。
Counterfactual Dataset
作者生成的反事实数据集和原有数据集具有相同的样本数量,因为是对原样本进行reward调权,原样本和调权后的样本是一一对应的。也许可以在此基础上进行反事实数据增广,当然这个是另外一个话题了。
文章引用
[1] Olivier Chapelle. 2014. Modeling Delayed Feedback in Display Advertising. In
Proceedings of the 20th ACM SIGKDD International Conference on Knowledge
Discovery and Data Mining. 1097–1105.
[2] SofiaIraKtena,AlykhanTejani,LucasTheis,PranayKumarMyana,DeepakDilip- kumar, Ferenc Huszár, Steven Yoo, and Wenzhe Shi. 2019. Addressing Delayed Feedback for Continuous Training with Neural Networks in CTR Prediction. In Proceedings of the 13th ACM Conference on Recommender Systems. 187–195.
[3] Yuta Saito, Gota Morishita, and Shota Yasui. 2020. Dual Learning Algorithm for Delayed Conversions. In Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. 1849–1852.
[4] ShotaYasui,GotaMorishita,KomeiFujita,andMasashiShibata.2020.AFeedback Shift Correction in Predicting Conversion Rates under Delayed Feedback. In Proceedings of the Web Conference 2020. 2740–2746.
[5] Yuya Yoshikawa and Yusaku Imai. 2018. A Nonparametric Delayed Feedback Model for Conversion Rate Prediction. arXiv:1802.00255v1 (2018).