因果推断推荐系统工具箱-CBDF(一)

文章名称

【AAAI-2019】【Renmin University of China/Tencent】Counterfactual Reward Modification for Streaming Recommendation with Delayed Feedback

核心要点

文章旨在解决流式推荐场景中延迟反馈的问题。流失场景要求快速收集训练样本,频繁重新训练推荐模型,这些都与延迟反馈存在冲突。现有方法要么忽略未观测到的反馈,要么利用启发式的方法调整反馈信息,引入了偏差并影响了模型的精度。作者流失推荐看作是序列决策问题,利用batch bandit方法结合反事实重要性采样,每一回合在调整过reward的训练样本上进行训练,并用于对下一个回合的决策进行预测。

方法细节

问题引入

如上所述,流式推荐系统需要及时更新推荐模型,保证模型的时效性。然而,用户的反馈可能是延迟的,影响了流式模型的训练流程,这种现象被称作delayed feedback。作者以优惠券场景为例,说明用户的转化具有较高的延迟,有超过70%的转化超过了1天(也就是当天无法获取),具体统计结果如下图所示,这与(近)实时训练模型的要求冲突了。

coupon conversion delay

Delayed feedback会严重影响现有方法,如LinUCB,的性能。从下图可以看出,随着PRDF(proportion of delayed feedbacks)的提高,模型的average regret显著下降。

performance of LinUCB with different PRDF

解决上述问题的方法大致分为两种,

  • 利用在线学习的方法,延迟一段时间进行训练,也就是等到有一定的样本后训练。因为延迟反馈的间隔通常很长,这种延迟通常不能有效提升样本收集的效果,也不能显著提升模型效果。并且,还会影响模型对用户实时兴趣偏好的捕捉。
  • 利用一个静态样本集[1, 2, 3, 4, 5](姑且称之为标准集合),来调整样本反馈。但是,这种集合通常是非实时的,因此忽略了流式推荐的动态本质,造成样本偏差(个人感觉也就是没有实时性)。

具体做法

作者提出基于反事实的样本反馈调整方法CBDF。一言以蔽之,

利用生存模型,估计已收集到的反馈的重要性采样权重,利用加权观测反馈的方式估计延迟的反馈,并用生成的反馈训练在线推荐模型。

作者把这个问题转换为一种batch bandit问题,它重复执行如下流程,

  • 观测奖励调权;
  • 使用修改后的奖励更新batch bandit模型;
  • 进行在线推荐;
  • 并收集用户反馈以备下一次迭代。

上述batch bandit的流程示意,如下图所示。基于上一阶段模型的推荐结果和用户反馈日志(可能反馈是延迟的),模型每隔数小时或天被增量训练,新的日志信息会进入下一次循环。


sequential decision making under delayed feedback

该batch bandit可以被定义为7元组<\mathcal{S}, \mathcal{A},\mathcal{\pi}, R, \mathcal{\gamma}, N, B>。其中,

  • \mathcal{S}表示上下文信息,包括用户和物品的(当前)特征。
  • \mathcal{A}表示动作空间,每一个动作代表一个物品被推荐。
  • \pi表示策略(也就是推荐模型),是一个\mathcal{ S } \rightarrow \mathcal{A}的函数,决定了给定上下文情况下,所有动作被选择的概率分布。
  • R表示reward,作者把R定义为用户点击C \in \{ 0, 1 \}(隐式反馈)和用户转化Y \in \{ 0, 1 \}(显示反馈)的线性组合。但Y通常delay,因此观测数据中Y = 0并不意味着用户最终没有转化,有可能只是观测时间不够。作者利用V \in \{ 0, 1 \}, D \in \{ 0, 1 \}分别表示用户是否最终转化,转化是否在被观测到。因此,Y = V \times D
  • \gamma表示用户转化时间,如果Y = 0,V = 1观测数据将无法获得这个值。作者还提出following-up time e的概念,这个时间间隔是可以用户转化被观测到的时间和每次数据收集时间间隔的最小值,即e = min(用户转化时间间隔,数据收集时间间隔)。如果Y = 1, V=1,则\gamma = e。此外,用户点击的时间戳c也会被收集。
  • N代表episode,这里的episode是指上述bandit流程执行一次,即模型更新,与用户进行交互并收集新的数据。B表示一次收集的数据的数量,也就是与用户交互的次数。一次收集到的数据D = \{ (S_i, A_i, C_i, Y_i, _i, e_i) \}

模型按episode收集数据,因此delayed转化数据至少要在episode结束之前收集到才能被观测到,否则会出现Y = 0,V = 1的情况。理想情况下,模型应该根据真实的V进行训练,而我们只能观测到Y,因此偏差不可避免。为解决这一问题,作者提出了CBDF。

CBDF

CBDF方法的整体流程如下图所示,其中每一个episode会进行B step在线推荐。调整后的reward记作R^{mod},得到新数据集D^{mod}

framework

整体算法的伪代码参见代码实现部分。值得注意的是输入中有counterfactual deadline parameter,这个参数将在下一节继续讲解。

本节讲解了流式推荐系统中,用户转化反馈延迟的问题背景以及作者对问题的抽象建模思路,概括了方法的要点和步骤,下节继续介绍各个步骤的细节。

代码实现

作者提出的Batched bandit的伪代码如下图所示。

pseudo code

心得体会

Batch Bandit

把流式推荐建模为batch bandit问题,是常见的做法之一,不过原有的batch bandit方法更新通常较慢,并且主要利用IS方法来进行optimal policy的学习。作者主要针对的问题是转化反馈延迟的问题,与其他batch bandit方法有所不同,此外在weight的时候,是针对reward进行的,不同于其他的是进行sample调权。

Counterfactual Dataset

作者生成的反事实数据集和原有数据集具有相同的样本数量,因为是对原样本进行reward调权,原样本和调权后的样本是一一对应的。也许可以在此基础上进行反事实数据增广,当然这个是另外一个话题了。

文章引用

[1] Olivier Chapelle. 2014. Modeling Delayed Feedback in Display Advertising. In
Proceedings of the 20th ACM SIGKDD International Conference on Knowledge
Discovery and Data Mining. 1097–1105.

[2] SofiaIraKtena,AlykhanTejani,LucasTheis,PranayKumarMyana,DeepakDilip- kumar, Ferenc Huszár, Steven Yoo, and Wenzhe Shi. 2019. Addressing Delayed Feedback for Continuous Training with Neural Networks in CTR Prediction. In Proceedings of the 13th ACM Conference on Recommender Systems. 187–195.

[3] Yuta Saito, Gota Morishita, and Shota Yasui. 2020. Dual Learning Algorithm for Delayed Conversions. In Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. 1849–1852.

[4] ShotaYasui,GotaMorishita,KomeiFujita,andMasashiShibata.2020.AFeedback Shift Correction in Predicting Conversion Rates under Delayed Feedback. In Proceedings of the Web Conference 2020. 2740–2746.

[5] Yuya Yoshikawa and Yusaku Imai. 2018. A Nonparametric Delayed Feedback Model for Conversion Rate Prediction. arXiv:1802.00255v1 (2018).

©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,968评论 6 482
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,601评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,220评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,416评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,425评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,144评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,432评论 3 401
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,088评论 0 261
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,586评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,028评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,137评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,783评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,343评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,333评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,559评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,595评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,901评论 2 345

推荐阅读更多精彩内容