因果推断推荐系统工具箱 - NCIS(二)

文章名称

【WSDM-2020】【Criteo Research】Offline A/B testing for Recommender Systems

核心要点

文章旨在构造实际可用的推荐模型离线评估器,实现没有线上AB实验的情况下,评估目标模型相对线上模型的潜在提升,快速迭代原型,筛选策略。作者提出了两个capped importance sampling[1]的两个变种,解决capped importance sampling假设过于不切实际的问题,并避免Basic Importance Sampling[3,4]与Doubly Robust[2]方法高方差的风险。

上一节介绍了作者研究的问题背景,即进行离线AB实验,通过模拟在线AB来快速迭代原型。并且,介绍了问题的形式化表示以及现有方法存在的问题。本节继续介绍问题的细节和原因,以及作者提出的解决方案。

方法细节

问题引入

如前所述,推荐系统场景下,模型的动作空间巨大(推荐列表组合数巨大)。因此,IPS方法会因为分母的概率过小造成极大的方差。现有方法主要利用Control Variates来缩减方差,不过收益有限,因此作者分析了这些方法的本质和问题,基于capped importance sampling,提出了NCIS。

具体做法

Control Variates

控制变量缩减方差的核心思路是,

寻找另一个具有已知期望的随机变量,并且该变量与要估计的变量具有相关性,通过控制这个变量来减少待估计的方差。

DR

DR方法是利用我们已有的知识对特征到收益的映射关系进行建模,相当于把外部知识融入收益的模型结构中[2]。具体地,我们假设在给定xa的情况下,可以利用模型\overline{r}(a, x)得到对应的收益r,其计算公式如下所示。

doubly robust estimator

DR是无偏的,其之所以可以缩减方差是因为\overline{r}(a, x)和真实的收益r具有相关性(因为我们是回归,模型学习的就是相关性),可以作为control variates,因此可以从理论上保证减小方差,具体可以参见引文。

然而,该方法具有一些缺陷,

  • 当动作空间很大的时候很难准确的估计\overline{r}(a, x)
  • \overline{r}(a, x)估计不准确的时候,r的估计也很难准确。特别是在推荐场景,当真实的期望收益大约为10^{-3}左右,这种情况很难把\overline{r}(a, x)和实际收益建立联系(因为方差就可能大过实际期望)。此时,虽然仍然有一定效果,但DR方法和IS方法没有明显的差别,点击收益模型没有办法帮助减少较多方差

NIS

基于E_{\pi_p}[W] = 1,可以利用经验方法\frac{1}{n}\sum_{(x, a, r) \in S_n}w(a,x)当做全局比例控制变量。由此可以得到normalized importance sampling (NIS)[6,7],其具体公式如下图所示。

normalized importance sampling

其中,归一化常数等于重要性权重的总和,并且期望等于n(数据集中的样本数量)。NIS对预期收益的估计是有偏的,但方差比IS要低(因为引入了一个control variable)。不过,该方法仍然是预期收益的期望E_{\pi_t}[r]的一致估计量,随着n增大而渐进一致。然而,最终降低方差的效果是有限的,让然和普通的IS差别不大

Capped importance sampling

作者表示,如果不引入偏差,就需要大量的外部知识来消除方差的影响(也就是说还是需要限制模型的复杂度等)。因此,作者讨论了引入一定偏差的capped importance sampling,其中有两种capping的方法,max capping和zero capping,其具体公式如下图所示。

max capping and zero capping

其中,\mathbb{1}_{w(a,x) < c}w(a, x), min(w(a,x), c)分别表示两种策略下的capped weight,zero capping的思路是,只有weight小于某个阈值c的样本才被用来计算,而max capping则用统一的阈值c代替了超过该阈值的weight。两者本质上差别不大,作者只讨论了max capping,直觉上,这两种方法都只是考虑了目标收益E_{\pi_t}[R]的一部分(子集),其具体公式如下图所示。

capping bias

可以看出,capping是有偏的,偏差项记作\mathcal{B}^{CIS}(\pi_t, c)。如果只顾及子集\mathcal{R}^{CIS}(\pi_t, c),偏差项的影响会比较大,只有当新策略\pi_t所频繁选择的动作的得分都比较低时,才会消除这个偏差,显然这是不可能的,因为我们要的就是新策略来提升就策略的性能,两者还是有比较大差异的。尽管各种方法[2,5]被引入来解决这个问题,但是仍然只能保证最坏的情况下,结果是合理的。

本节介绍了DR,NIS,capping IS方法的问题,下节介绍capping IS的阈值选取以及度作者的启发。并介绍作者提出的NCIS方法。

心得体会

capping

个人理解,capping,其实就是忽略那些证据不充分的(a,x)。悖论的是,我们有需要探索这部分空间中,新策略的性能。因此,需要利用其他额外的信息,来帮助模型在不同的空间有不同的capping,这也是作者的思路。

文章引用

[1] Léon Bottou and Jonas Peters. 2013. Counterfactual reasoning and learning systems: the example of computational advertising. Proceedings of Journal of Machine Learning Research (JMLR).

[2] Miroslav Dudik, John Langford, and Lihong Li. 2011. Doubly robust policy evaluation and learning. Proceedings of the 28th International Conference on Machine Learning (ICML).

[3] JM Hammersley and DC Handscomb. 1964. Monte Carlo Methods. Chapter.

[4] Daniel G Horvitz and Donovan J Thompson. 1952. A generalization of sampling without replacement from a finite universe. Journal of the American statistical Association.

[5] Andreas Maurer and Massimiliano Pontil. 2009. Empirical Bernstein bounds and sample variance penalization. Proceedings of the 22nd Annual Conference on Learning Theory (COLT).

[6] MJD Powell and J Swann. 1966. Weighted uniform sampling: a Monte Carlo technique for reducing variance. Journal of Applied Mathematics.

[7] AdithSwaminathanandThorstenJoachims.2015.TheSelf-NormalizedEstimator for Counterfactual Learning. Proceeding of Neural Information Processing Systems (NIPS).

©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343

推荐阅读更多精彩内容