因果推断推荐系统工具箱-CBDF（二）

文章名称

【AAAI-2019】【Renmin University of China/Tencent】Counterfactual Reward Modification for Streaming Recommendation with Delayed Feedback

核心要点

文章旨在解决流式推荐场景中延迟反馈的问题。流失场景要求快速收集训练样本，频繁重新训练推荐模型，这些都与延迟反馈存在冲突。现有方法要么忽略未观测到的反馈，要么利用启发式的方法调整反馈信息，引入了偏差并影响了模型的精度。作者流失推荐看作是序列决策问题，利用batch bandit方法结合反事实重要性采样，每一回合在调整过reward的训练样本上进行训练，并用于对下一个回合的决策进行预测。

上一节讲解了流式推荐系统中，用户转化反馈延迟的问题背景以及作者对问题的抽象建模思路，概括了方法的要点和步骤，本节继续介绍各个步骤的细节。

方法细节

问题引入

如上一节所述，CBDF的算法流程主要是，

利用反事实重要性采样，得到权重，调整观测数据的reward；
更新在线推荐模型，并进行在线推荐；
收集新的数据用于下一轮更新迭代。

那么，存在两个问题，

如何得到权重，所谓的反事实重要性采样又是什么？
如何进行模型更新，以及推荐并收集数据？

具体做法

Counterfactual Reward Modification

延迟反馈的无偏估计

如前所述，CBDF的reward是点击和转化的线性组合，即 $R = \lambda\hat{R} + (1 - \lambda) \tilde{R}$ ，其中 $\hat{R} = C, \tilde{R} = Y$ 。

所谓的反事实重要性权重，是利用如下公式实现Important Sampling。

image

在给定 $S$ 时，延迟的转化反馈可以被表示为函数 $\tilde{R}(S, Y)$ 。因为存在用户转化但未被观测到（数据没有收集到）的情况，所以 $\tilde{R}(S, Y)$ 是对 $\tilde{R}(S, V)$ 的有偏估计。理想情况下，我们希望对真实的delayed reward（公式2）进行无偏估计，但通常观测都是有偏的（公式3）。其中， $\tilde{R}(S, Y), \tilde{R}(S, V)$ 分别代表，biased delayed reward和true delayed reward。

image

由于，我们观测的数据一定比真实转化数据少，所以如下图所示的公式一定满足。

image

作者通过估计 $\tilde{R}^{mod}(S, Y) = w\tilde{R}(S, Y)$ 来实现无偏估计，此处的 $w$ 就是上面说的反事实重要性权重。

修改后的优化目标为， $R^{mod} = \lambda\hat{R} + (1 - \lambda) \tilde{R}^{mod}(S, Y)$ 。论文的附录给出了无偏的理论证明，感兴趣的同学可以参考原文。

作者强调权重 $w$ 可能大于1，意味着观测到的转化数据应该受到重视。

延迟反馈的重要性计算

上述权重（公式4）由于包含了 $S, Y$ 的笛卡尔积，直接求期望计算量巨大。作者受到[4]的启发，提出了一种反事实学习的方法来直接预测（predict）权重 $w$ 。

作者引入counterfactual deadline $\xi$ 的概念（上一节代码中有提到），本质就是一个介于episode开始和结束之间的时间戳，即 $\xi \in (t^{str}, t^{end})$ 。

利用counterfactual deadline，把上一个epsiode（或之前的所有episode收集到）的数据集 $\mathcal{D} = \{ (S_i, A_i, C_i, Y_i, c_i, e_i) \}$ 分别为observed set和hold-out set。在hold-out set观测到转化的样本是所谓的delayed转化样本。

在observed set中 $Y=1$ 的被当做训练样本得到训练集 $\mathcal{D}_A = \{ (S_i, A_i, Y_i, c_i, Y_i^{obs}, e_i^{obs}): c_i \leq \xi, Y_i = 1, A_i = A, i \in [B] \}$ 。其中， $B$ 是一个episode经历的所有step（也就是收集了多少轮推荐结果）， $Y_i^{obs}, e_i^{obs}$ 分别表示在观测集合的时候，是否有观测到转化以及counterfactual deadline与用户点击的时间间隔。由于在 $\mathcal{D}_A$ 里所有的样本 $Y_i = 1$ ，因此如果 $Y_i^{obs} = 0$ ，那么 $D_i=0$ 。值得注意的是，这个数据集是关于特定动作 $A$ 的。

利用这些样本可以用来训练一个生存模型模型（Survival Model），得到如下图所示的reward权重 $w_i$ ，其中 $\beta_{A_i}$ 是模型的参数。该生存模型主要是预测用户的转化反馈是否能够被观测到，即 $Pr\{D_i = 0 | V_i =1, S_i\}$ 。其中， $h_{A_i}(S_i) := exp(<\beta_{A_i}, S_i>)$ 是生存模型的hazard function[1,2]。 $h_{A_i}(S_i)e_i$ 可以被理解，用户真实转化的情况（ $V_i=1$ ）没有在 $e_i$ 的时间间隔内被观测到的概率的对数。

image

作者利用如下图所示的公式求得模型参数 $\beta_A$ ，其中 $h_i = h_{A_i}(S_i)$ 。

image

如前所述，模型的reward是点击和转化的线性组合，经过加权后，可以直接把点击随机变量 $C$ 和观测转化变量 $Y$ （不是实际转化变量 $V$ ）带入线性组合公式。得到如下图所示的，调权后的reward。

image

Model Training and Online Recommendation

有了调整后的reward $R^{mod}$ ，作者利用[3]中的方法进行batched policy update，

记录上下文向量和调整后的reward， $S_A^{n-1} \in \mathbb{R}^{N_A^{n-1} \times d}, R_A^{n-1} \in \mathbb{R}^{N_A^{n-1}}$ 。其中 $d$ 是上下文向量的维度， $N_A^{n-1}$ 表示动作 $A$ 在整个episode结束的时候，共被采用了多少次。

利用上下文向量和调整后的reward计算协方差矩阵， $\Phi^n_A = \Phi^{n-1}_A + S_A^{n-1}\top S_A^{n-1}$ 。

在岭回归的场景下，可以得到策略参数的闭式解。 $\theta^n_A = (\Phi^{n}_A)^{-1}b^n_A, b^n_A = b^{n-1}_A + S_A^{n-1}\top R_A^{n-1}$ 。

最后，利用泛化的UCB方法，得到策略 $\pi_n: \mathcal{ S } \rightarrow \mathcal{ A }$ ，具体计算公式如下图所示。

image

随后，利用如下图所示的公式，依据新的policy进行在线推荐。

image

代码实现

reward调整过程的伪代码如下图所示。

image

心得体会

Counterfactual Important Sampling

个人感觉，方法并没有特别多的利用反事实的框架，而是利用了时间戳前移构造了观测数据集。当然，也可以理解为，作者是在回答一个反事实问题：“如果收集数据的时间戳提前到counterfactual deadline，转化情况会怎么变化“？但使用了之前很多episode收集的数据，完全可以利用真实的转化来构造数据集。除非，要求时间上足够接近。

文章引用

[1] J. D. Kalbfleisch and R. L. Prentice. 2002. The Statistical Analysis of Failure Time Data (2nd Edition). John Wiley & Sons.

[2] Qingyun Wu, Hongning Wang, Liangjie Hong, and Yue Shi. 2017. Returning is Believing: Optimizing Long-term User Engagement in Recommender Systems. In Proceedings of the 2017 ACM on Conference on Information and Knowledge Management. 1927–1936.

[3] Yanjun Han, Zhengqing Zhou, Zhengyuan Zhou, Jose H. Blanchet, Peter W. Glynn, and Yinyu Ye. 2020. Sequential Batch Learning in Finite-Action Linear Contextual Bandits. CoRR abs/2004.06321 (2020).

[4] ShotaYasui,GotaMorishita,KomeiFujita,andMasashiShibata.2020.AFeedback Shift Correction in Predicting Conversion Rates under Delayed Feedback. In Proceedings of the Web Conference 2020. 2740–2746.

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,732评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,496评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,264评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,807评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,806评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,675评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,029评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,683评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 41,704评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,666评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,773评论 1赞 332
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,413评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,016评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,978评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,204评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,083评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,503评论 2赞 343

因果推断推荐系统工具箱-CBDF（二）

文章名称

核心要点

方法细节

问题引入

具体做法

Counterfactual Reward Modification

延迟反馈的无偏估计

延迟反馈的重要性计算

Model Training and Online Recommendation

代码实现

心得体会

Counterfactual Important Sampling

文章引用

推荐阅读更多精彩内容