因果推断推荐系统工具箱 - IOBM(一)

文章名称

【SIGIR-2021】【浙大-Salesforce】Adapting Interactional Observation Embedding for Counterfactual Learning to Rank

核心要点

文章旨在解决反事实的L2R方法(CLTR)中存在的非Position Bias(其他偏差)。作者提出IOBM,分别学习独立学习审视和点击的嵌入向量表示。同时,用一个可学习的嵌入向量反映审视和点击之间的交互关系。并利用上下文数据,结合观测内注意力机制(intra-observation attention)以及观测间注意力机制(inter-observation attention)来消除上下文带来的偏差。

本节讲解问题的描述和定义,以及建模方法和问题转化。

方法细节

问题引入

基于反事实的L2R方法(CLTR)越来越流行,现有方法主要消除的是Position Bias,这些方法假设用户审视到某个物品的概率,在各个排序结果列相互独立,且只和物品所在的位置相关。然而,观察和点击一般是存在某种交互的,忽略这种交互仍然无法解决数据中存在的偏差(作者提到这种偏差和数据收集方式无关)。

假设我们要预估位置为p+1的物品是否被观测到,这个概率会严重依赖位置p的交互结果,如果用户没有点击该位置的物品,那么极有可能继续浏览到p+1物品,但是如果点击了p则可能极大概率不会审视到p+1的物品,这个影响被作者成为interactional observation bias。虽然可以直接建模这种交互,但存在两个问题,1)数据稀疏,交互结构复杂,导致学习得到的结果方差很大,如果简化模型有会存在bias;2)在隐式反馈中,无法观测到用户的审视概率,加大了建模难度(通常要做隐变量了)。

interaction between observation and click

给定查询分布q \sim P(Q),推荐系统S以及针对查询q推荐系统产出的排序列表\pi_{q},L2R的目标是最小化如下图所示的目标,其中,\Delta(\pi_{q} | q)是衡量单个排序结果好坏的损失函数。

objective function

如果我们知道处在位置p的文档d的真实相关性r_{p}^{q},那么我们可以得到期望的评估指标,其公式如下图所示。

full info metric

其中,\delta(\pi_{q} | q)表示相对于排序结果\pi_{q},文档d的排序评估指标。但是这种全知是不可能的(人工标注也会有噪声,且很昂贵)。我们拥有的是点击数据p(c_{p}^{q} = 1),依据审视模型的假设,用户点击了某个物品,那么他一定审视到了某个物品。这种模型可以表达为如下图所示的概率模型。

observation model

[1]提出采用propensity的方法是估计用户审视到某个物品的概率,并利用这个估计值对样本加权,[1, 29]证明这个方法是对全知评估指标的无偏估计。具体的公式如下图所示。

IPS model

当前的纠偏模型可以分为两类,PBM和CPBM。PBM简化了审视概率的表达式,具体公式如下图所示。可以看到在估计审视概率时,省略了查询q和排序结果\pi_q两个条件,认为查询上下文和结果顺序对甚是概率没有影响。这样做可以缩小模型的搜索空间,不受数据稀疏导致的方差较大的影响。但是,审视概率在不同的查询上下文中共用相同的倾向得分,甚至可能导致纠偏后的结果还不如不纠偏的结果,并且由于是建模的限制,无论收集多少数据,都无法消除这种偏差(本身估计量就不是渐进一致的)。

PBM examination probability

[3]提出了CPBM,引入查询上下文特征f^{sel}(x_q)x_q表示原始查询,f^{sel}(\cdot)表示特征提取函数。原文用的是一些手工构造的的特征,包括查询文文本,查询语句长度等,返回结果集的大小和候选集的大小以及用户的特征,比如年龄。之所以选择少量的手工特征是为了防止维度灾难,减少估计propensity的嫩度[7, 30]。

CPBM examination probability

不难发现,PBM和CPBM都没有考虑当前位置之前的审视结果,对当前位置的审视和点击行为的影响(如前所述)。所以,作者把审视概率描述为如下所示的公式。

IOBM

上述公式看上去比较完整,但是也很难学习其中的参数。不仅1)引入了未观测变量o_1, ..., o_{|\pi_q|};2)还会面临数据系数的问题。如果通过假设条件变量的依赖性(比如马尔科夫性)进行简化,需要有比较好的先验知识。

到此,PBM→CPBM→IOBM逐渐完善了对审视和点击概率的建模,问题转化为如何表示这些条件变量(同时也可能是confounder),以及怎么求解这个模型。

具体做法

受到[31, 42]的启发,利用嵌入表示学习的方法来表示(共同)影响用户审视某个物品以及点击某个物品的混淆变量(confounder)。这种学习得到的嵌入向量表示,可以作为混淆变量的代理变量,可以避免建模整个数据的生成过程(把整个过程建模成一个概率链之类的),并且能够解耦审视和点击之间的复杂结构。

[5]表明,不要建模所有的confounder信息,只需要准确估计和propensity预估有关的confounder信息即可。在这种方法下,IOBM的审视概率估计公式如下图所示,其中,Emb_o(·)表示交互的嵌入表示学习函数(interactional observation embedding function)。

IOBM embedding

到这里,我们描述了IOBM要建模的内容以及建模的方法,并引出了参数优化求解思路,下节继续讲解模型的实现和参数的学习过程。

心得体会

interactional observation bias

这种bias是confounder,即可能影响用户是否审视到位置为p+1的物品,同时也表现了用户的一些偏好倾向(或者意图),会影响用户是否点击位置为p+1的物品。作者为了避免建模这种复杂的交互结构,采用embedding的形式来表示这种内在联系。个人感觉,会有dynamic treatment effect问题,也就是说其实位置为p的物品是一种treatment,会对后续的位置为p+1的物品treatment有影响,可能不仅仅是confounder的问题,但是这种序列treatment的建模还在研究探索阶段,没有很深入的结果,也很少应用在推荐系统中。

另外,作者也提到数据量的问题和模型搜索空间的问题,导致如果进行这种序列的建模会造成很大方差。因此,权衡后选择了进行嵌入表示学习。

IOBM模型

其实IOBM模型,是对PBM和CPBM在条件概率上的扩展(其实是概率图,或者说因果图的扩展,本身因果图也是贝叶斯网络)。并且,把顺序的前后关系建模到了条件概率中(有点像NLP中的DNN到RNN的转化过程)。通常这种具有序列关系的模型会使用马尔科夫性或者其他的概率图分解等假设进行简化(不然根本没法求哇),有点像BOW和N-gram。不过和NLP一样,到了RNN为主的Language Model,就直接建模整个序列,感觉作者也是这个套路。

当然还有其他的模型,比如XPA,利用Attention建模其他layout下的interactional of observation and clicks。这篇文章后续会讲解(看了这几篇文章,相信读者可能跟我有同样的感受,真的是只要是往序列建模上搞,最终还是要RNN,Att)。

文章引用

[1] Thorsten Joachims, Adith Swaminathan, and Tobias Schnabel. 2017. Unbiased learning-to-rank with biased feedback. In Proceedings of the Tenth ACM International Conference on Web Search and Data Mining. 781–789.

[2] Aman Agarwal, Kenta Takatsu, Ivan Zaitsev, and Thorsten Joachims. 2019. A general framework for counterfactual learning-to-rank. In Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval. 5–14.

[3] Zhichong Fang, Aman Agarwal, and Thorsten Joachims. 2019. Intervention harvesting for context-dependent examination-bias estimation. In Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval. 825–834.

[4] Christos Louizos, Uri Shalit, Joris Mooij, David Sontag, Richard Zemel, and Max Welling. 2017. Causal effect inference with deep latent-variable models. In Proceedings of the 31st International Conference on Neural Information Processing Systems. 6449–6459.

[5] Victor Veitch, Yixin Wang, and David M Blei. 2019. Using embeddings to correct for unobserved confounding in networks. arXiv preprint arXiv:1902.04114 (2019).

©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343

推荐阅读更多精彩内容