因果推断推荐系统工具箱 - PIJD(一)

文章名称

【SIGIR-2021】【University of Illinois at Chicago】Propensity-Independent Bias Recovery in Offline Learning-to-Rank Systems

核心要点

文章旨在同时解决LTR中的Position Bias和Selection Bias,提出了两阶段的bivariate method,在不依赖Propensity Score的情况下,同时纠正上述两种偏差。

方法细节

问题引入

直接利用观测到的用户隐式反馈训练LTR模型,会因各种偏差影响,导致模型得到次优解。现有的方法主要利用Propensity Score进行偏差纠正,并且主要关注Position Bias。然而,准确估计Propensity Score是比较困难的,并且除了Position Bias以外,还存在如Selection Bias等多种其他偏差。值得注意的是,作者这里提到的Selection Bias不是评分模型(多见于召回阶段)里提到的,因用户选择给更喜欢的物品打分而造成的偏差。而是因为展示给用户的结果列表被截断了(因为只能取top-k),使得某些长尾物品根本无法被用户观察到,更没有可能被点击,造成了选择性偏差,偏差的示意如下图所示。

biases

在估计Propensity Score时,除了我们熟知的,

  • 收集随机数据会伤害用户体验;
  • 利用Intervention Harvesting可能覆盖不到长尾物品(主要还是无法解决Selection Bias,因为他们长尾,所以常常被截断)

依赖Propensity的方法,通常需要联合估计Propensity以及Relevance,但是如果控制的不好,通常会导致两者都没有得到准确的估计,偏差没有被有效消除[3, 31]。最主要是的是,这些方法(由于因果推断的Positivity)Propensity有非零值,但是对于长尾物品来说,它们基本是0.

此外,现有的方法中,大多数要么只处理了Position Bias,要么只处理了Selection Bias(假设被曝光的物品具有相同的被审视概率)[28, 35]。少数同时解决两种偏差的方法要么过于复杂,要么需要满足较强将设,要么需要随机数据。

LTR问题可以被形式化为,给定查询x以及某个物品y,利用两者特征F_{x,y}来估计查询(用户)-物品元组相关性。通常收集到的观测数据来自原有的LTR模型S_{base}返回的推荐结果\overline{\textbf{y}},啰嗦一句,返回的结果是一个物品的集合(top-k)。整个学习的目标是,基于观测数据学习新的排序模型S

把物品y在返回结果中的排序记做rank_{y, \overline{\textbf{y}}},那么审视概率的Position Bias和Selection Bias可以被表示为如下图所示的公式。

Position Bias and Selection Bias

其中f表示被观测到的概率P(o_{x,y=1})与查询x以及某个物品y在结果集中的排序rank_{y, \overline{\textbf{y}}}之间的关系,\eta是函数的参数。其中,0反映了Selection Bias也就是被截断的情况。

通常通过优化以下目标来学习排序模型S,整个优化过程是在可能的查询集合\textbf{x}上进行的(所谓整个,也是观测到的分布,未观测到的查询不属于分布,也就是出现概率比较小)。其中,\Delta(S(x_i)|x_i)表示的是某个查询的排序损失,该损失对排序错误的(把相关物品排很靠后)行为进行惩罚,以此不断优化模型。监督信息一般来自2种标签,

  • 人工标注的相关性(昂贵),作者成为full observation settings
  • 隐式的电机反馈(有偏),作者成为partial observation settings

具体做法

以同时解决Position Bias和Selection Bias为目标,作者从反事实的角度来定义问题(其他文章也有类似的定义方法[22])。定义变量O(x, y)表示用户是否观察到某个物品,C_{O=1}(x, y)表示在被观察到的情况下,物品是否被点击(应该可以被表示为条件概率P(C_y=1|O_y=1, x,...))。在这种框架下,LTR的任务是准确度估计所有物品被点击的反事实概率(对于一些没有展示,没有被点击的物品是反事实),包括哪些(由于被截断)没有机会被观察到和被点击的物品(O(x, y)=0C(x, y)=0),其形式化的公式如下图所示。

click counterfactuals

下一节,继续讲解怎么解决无法观测到用户是否审视到物品以及查询-物品相关性的问题。

心得体会

Selection Bias

文章引入了由于Top-K截断导致的选择性偏,使得某些物品被用户观测到的概率是0,点击概率也是0。这样的假设丰富了原有没有被观测到的物品主要是由于排序太低的单一假设,毕竟我们的全部候选集也包括那些根本没有进入返回结果集的物品。当然,也有可能模型足够准,那些没有进入结果集的物品都是不相关的,只是概率比较小。所以仍然会存在选择性偏差。两种偏差如果被单独切开处理,确实会存在遗留的偏差,同时可能没有利用到有效的信息。个人觉得这是文章的一个亮点。

Positivity

因果推断假设物品的Propensity在0,1之间,而top-k导致Propensity是0。不过如果从整个查询结集合的角度看,一个物品被包含在结果集合里的概率是可能大于0的(假设查询足够分散,物品不是特别长尾)?然而,这个概率就算不为0,也是没有意义的,因为我们所谓的干预是对一次查询做的,多次查询是iid的采样。一个次干预里,必须要保证treatment是positivity的。所以,位置和截断行为(其实是指K的选取,也就是K等于几)是两个混淆变量,同时影响了物品是否被点击,以及物品是否会被当做treatment assign给用户(把物品从左treatment,返回结果集看做是treatment的组合,结果集就是个组合treatment)。感觉作者的这个建模更causal(相比于其他文章)。

并且,可以看出,Selection Bias也和物品的位置有关,如果物品定位置小于K不就不会被截断了么。

Causal Outcome/Counterfactual

作者这里把观测到并点击的概率当做问题的outcome,而其他的一些文章把相关性当做outcome。个人感觉,还是点击概率更合理,毕竟从因果关系的角度,相关性是原因,同时影响treatment的assigment(物品的排序)以及物品是否被用户点击。

文章引用

[1] Yoshua Bengio and Jean-Sébastien Senécal. 2008. Adaptive importance sampling to accelerate training of a neural probabilistic language model. IEEE Trans. Neural Networks 19, 4 (2008), 713–722.

[2] Sébastien Jean, Kyunghyun Cho, Roland Memisevic, and Yoshua Bengio. 2014. On using very large target vocabulary for neural machine translation. arXiv preprint arXiv:1412.2007 (2014).

[3] Aaron van den Oord, Yazhe Li, and Oriol Vinyals. 2018. Representation learning with contrastive predictive coding. arXiv preprint arXiv:1807.03748 (2018).

[4] Kihyuk Sohn. 2016. Improved deep metric learning with multi-class n-pair loss objective. In NeurIPS. 1857–1865.

©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343

推荐阅读更多精彩内容