文章名称
【WSDM-2021】【Radboud University】Unifying Online and Counterfactual Learning to Rank
核心要点
文章旨在解决现有两类causal LTR方法不能够互相结合提升性能的问题,提出intervention-aware估计器,融合online和counterfactual LTR方法的优势,成功缓解了position bias,trust bias以及item-selection bias。
上一节介绍了作者研究的问题背景counterfactual LTR,以及作者期望解决的问题。本节继续介绍作者的研究思路与发现,以及提出的方法。
方法细节
问题引入
如前所述,intervention-oblivious estimator不仅可以保证在数据收集期内,线上策略不变的情况,整个估计是无偏的。同时,也可以保证策略随时间变化的情况下,策略是无偏的。然而,intervention-oblivious estimator没考虑整个收集过程的连贯性。如下图所示,在日志记录的数据中,前个时间步内,策略记录的平均审视概率为,也就是不管相不相关,文档本审视到的概率,参见如下下图所示公式。
随后,线上策略策略发生改变,新日志记录线上策略在的时间步骤内,。intervention-oblivious estimator给出的权重与成倒数关系。因此,在个的时间步骤内将按,在的时间步骤内按加权。这个加权是突变的,intervention-oblivious estimator没有把的状态反映出来。假设另一个文档在任意时刻都是,那么两个文档的权重都是20,看不出区别,其实不能反映出之前偏差对文档的影响。作者认为,这种时候应该降低的权重来反映这种变化(因为之前它的权重低)。
具体做法
intervention-aware estimator
为了解决上述问题,作者提出intervention-aware estimator。其目标是不仅基于单个策略,而是考虑收集数据期间,所有策略对点击概率的整体影响,并且仍然要保证估计是无偏的。假设所有用于收集数据的策略所构成的集合为,,那么文档被点击的概率,可以表示为如下图所示。
基于此intervention-aware estimator可以表示为如下图所示。
其实,这里和intervention-oblivious estimator的主要区别是,换成了,其他内容没有变化。作者强调,虽然看起来差异很小,但他们的实验结果表明,性能差异相当大。此外,如果线上策略在收集数据期间没有发生变化,那么intervention-aware estimator和intervention-oblivious estimator其实没有区别。
intervention-aware estimator的无偏证明过程如下。其实,和intervention-oblivious estimator的过程没有本质区别,也只是换成了。
case review
介绍完intervention-aware estimator之后,我们回顾一下问题引入中的case。
首先,回顾一下intervention-oblivious estimator中的期望的计算公式。对比公式18和公式25发现,intervention-aware estimator的期望其实是一个完整时间步骤下的加权平均。
因此,可以intervention-aware estimator可以全局考虑权重。回到问题引入的具体例子,,因此,权重为,远低于intervention-oblivious estimator中的20,达到了作者降低权重突变的目的。此外,作者表示,在IPS estimator中,低倾向得分(也就是这里的)会导致高方差[15],作者的方法也可以减少方差。
此外,作者表示,intervention-aware estimator没有限制线上策略的变化。不过也可以设计一种变化机制来进行反事实估计,这里把数据收集的伪代码列在代码部分,具体细节请读者参考原文6.2节。
代码实现
文章的伪代码如下图所示。
心得体会
无偏估计
这篇文章的公式非常的多,但是其实和新框架是IPS无偏证明那一套。如果我没搞错的话,这篇是WSDM2021的research的best paper。个人感觉两大核心亮点,
- 统一了反事实估计和在线干预在消除偏差的作用。
- 把线上策略(也就是所谓的在线干预)考虑在权重的计算中,并且不是仅考虑一点的概率,而是整体趋势。
唯一有点那确定的是,线上策略干预变化之后的假设是否成立,也就是。
文章引用
[15] Thorsten Joachims, Adith Swaminathan, and Tobias Schnabel. 2017. Unbiased learning-to-rank with biased feedback. In Proceedings of the Tenth ACM Interna- tional Conference on Web Search and Data Mining. 781–789.
终于把这个坑填完了,码字不易,觉得有用的看官点个赞哇~。