目前对因果推断学的一知半解的,不是很看的明白,看了个论文做下笔记,有问题的希望指正
摘要:
因果有能力构建推荐系统中的因果性,处理混淆因子的影响以及反事实问题(离线策略评估和数据增强)。但目前对推荐的分类都集中实际应用的问题上,这种分类方法会分散和分割单一的因果理论。考虑到因果性,综述从因果的角度上来对推荐方法进行分类,将因果性融合进推荐系统当中。从因果理论角度对最新文章进行一个系统性概括,并跟踪了同一因果策略下推荐系统的发展。1)提出因果推断的概念;2)提出因果的分类法,潜在结果框架(PO),结构因果模型(SCM)以及反事实方法。3)因果在推荐领域中的前景研究
介绍:
因果推断现在应用在学术和工业领域,例如药物,气候,在线广告评估等。因果在推荐领域的使用集中在uplift模型当中,作为政策效用的评估,目前研究倾向于模型的训练。因果可以使用在推荐的各个方面,例如数据收集,用户和项目的表达学习,目标优化,在线政策评估。
因果推荐的优点:
- 模型因果,目前的机器学习都研究变量之间的相关性,但是在实际应用过程中更注重因果关系,比如推荐过程中,用户很可能因为流行度选择了一项物品,并不是因为用户的兴趣爱好选择的,这种用户兴趣和物品种类混淆相关,会降低用户的体验感。因果推荐系统可以分别学习用户的兴趣和流行度相互作用的结果。基于因果的推荐系统1)用户交互偏差的因果效应,偏差的原因是因为流行度和暴露,数据的去偏是目前的一个研究方向;2)对变量因果效应的分解和推理,利用一定偏差的因果效应来提高推荐准确性。
-
反事实推理,与真实数据有所不同,其问题主要集中在数据增强,分布外数据泛化,政策评估。1)数据增强问题,作为观察数据的一个补充资源; 2)OOD问题指的是训练集和测试集不满足于独立同分布(IID),传统的推荐系统会学习到用户和物品之间的一种虚假相关,而因果推荐用反事实的方法找到不变量或者不变的变量,或者因果关系,并在数据分布变化的时候泛化。3)uplift模型评估增长
现有的研究
- 目前的研究集中在三种类型:潜在结果(PO)框架,结构因果模型(SCM)以及反事实。PO和SCM-based方法利用特定的因果推断技术,但是前者没有明确的使用结构信息;另一方面,反事实方法没有特定的方法
-
推荐中因果方法的演化:
PO-based框架
早期研究集中在po框架,主要将po框架应用到深度学习的优化函数中,或者强化学习的方法奖励中。这个方法又可以分成两个类别,倾向分数和因果效应。前者利用评估的倾向分数进行重新分配权重,因果效应集中处理和控制下的po之间的差异。
- 倾向分数策略:
协变量X(用户商品特征,时间等信息),决策方法,决定了是否要一个有效的手段,因此潜在结果po为,作为一种“奖励”的观察数据,的有有效性可以被评估,作为一种评估策略,通常使用A/B测试,但成本太高,因此一个代替的方案,计算评估作为采用策略的奖励,但是这种方法面临着非随机缺失问题(MNAR)。
为处理这个问题,1)早期的处理方法是直接预测缺失值,但是会有巨大的数据偏差问题。2)当前采用倾向分数e(x)来处理数据分布。倾向分数的作用:纠正暴露偏差,克服混淆问题,用暴露模型计算倾向分数,并估计未观察到的混杂因素;学习未观察到的混淆因素的低秩嵌入,学了individual 嵌入从暴露中获得PO信息,寻找隐藏关系;3)对比学习与倾向分数的结合解决噪声数据,比如CCL框架,使用倾向分数生成信息正样本对作为对比学习。
倾向分数可分为逆倾向分数IPS和doubly robust(DR), 克服数据的有偏性和模型的不可知性。
MNAR
随机缺失NAR可导致有偏预测和次优策略,1)选择偏差:在预测任务中出现,通常可分为模型选择偏差和用户自选偏差,模型选择偏差指的是系统没有考虑综合因素而推荐的偏差,由随机推荐消除这个偏差,通常为流行度和暴露偏差;用户自选偏差,不能随机化消除,优先排除样本数据造成的,通常是从众性偏差和点击偏差。2)混淆偏差,能够影响到T和Y,定义为统计相关的概率分布不等同于干预分布,例如,用户历史数据训练的系统会过度推荐用户过去喜欢的项目,用户也会收到历史数据的影响影响其决策。
这两种偏差会导致因果的无效估计,选择偏差并没有明确的因果关系
IPS或者IPW或者IPTW
是一种反事实类别里边的技术,通常用于数据去偏和无偏学习。
给定协变量X引起治疗T的概率,并为每个样本赋值一个w的值,IPS调整日志数据集中背景特征的分布,使得测试数据集分布一致。
IPS-based算法侧重于用户交互中的数据去偏,主要是选择偏差,倾向分数可以有朴素贝叶斯或者逻辑回归得到,主要模型有DLCE,unbiased IPS-based uplift,UR-IPW。 IPS方法并不需要有明确的因果结构图,但有些工作也会组合结构图和IPS,模型有DENC,拆解了3个影响outcome的因素,及内部因素,社交网络混杂因素以及暴露因素。
还有各种IPS的变种,来解决其他的问题,比如在求解IPS过程中引起的高方差问题,提出了一些IPS的变种来解决这类问题,比如clipped IPS(CIPS),interaction IPS(RIPS序列推荐),self-normalized inverse propensity scoring(SNIPS)
DR
另一种解决非随机缺失问题的方法,direct method(DM)通过回归模型对缺失值进行预测,监督学习优势方差较低,但是因为不满足IID而存在的高偏差。DR方法的优点是能够评估outcome来减轻IPS的方差,控制由于IPS引起的高方差问题。
causal effect strategy
- uplift
目前使用最主要的方法,uplift模型,因果效应通常描述成一个直接或者间接的优化目标,最大化利益。treatment(T)可以代表别的一些应用,能够提升这个uplift模型的。
由推荐引起的因果效应的提升,但是研究表明在没有建议的情况下仍然有75%的点击率的产生,因此在投资回报率的角度来说,这些部分的建议不是必要的。
uplift是个反事实的问题,在其模型中,引入了因果概念(ATE和CATE)。因果与传统机器学习的结合对于uplift的评估包含两种方法:transformed outcome和uplift tree。推荐系统中,A/Btest的uplift评估由于用户自我选择的偏差造成的高花费和大波动,各种偏差可能会导致MNAR,解决这个问题,提出了一些方案来提升uplift的评估,比如SNIPS-base ATE, CATE-based uplift 模型。此外CausCF模型对MF模型进行张量分解成三个维度(用户,物品以及Treatment effect)以此来达到更好的uplift效果。CF-MTL模型【107】对用户进行细粒度的分类,并评估每种用户的概率。 - beyond uplift
采用贝叶斯模型来推断新曲发布的因果影响【118】,【65】最小化注意力机制的权重和ITE之间的距离来反映特征对交互的真实影响,【119 22】利用大样本偏差数据的ITE和小样本无偏数据来消除数据偏差的问题
SCM-based方法
与PO框架相比,构建因果结构图非常的直观明了,根据结构分为三类:对撞结构,中间结构,混杂结构
对撞结构 collider structure
对撞结构最基本的的情况会是C=A+B的形式,目前的工作有DICE【66】这个模型,从用户的角度来跟踪流行性,降低流行偏差,把用户和项目embedding分离兴趣和从众embedding,在碰撞效应的驱动下,使用特定的从众性和兴趣数据进行分离,如果用户交互一个非流行的项目,那么就表明用户是根据兴趣来选择这个物品的。CIGC(causal incremental graph convolution)【123】提出碰撞效应蒸馏算法有效地再训练基于GCN的推荐模型,通过计算不活跃点和新数据点之间的距离。
中介结构
当一个变量导致另一个变量,可能不是直接导致,而是通过一组中介变量来做。
混淆结构
混淆结构的问题处理方法可分为四类:后门方法,变量工具(IVs),前门调整,深度学习干预。
- 后门路径方法
后门路径的定义:给定一个T->Y,连接T到Y的一个路径满足,1)没有个直接路径,2)没有碰撞
后门路径可以确认混淆元素,是后门路径上的一个分叉节点。例如再评估T->Y的效应,有一条后门路径T<-A->
Y,A为混淆因子,需要控制A阻止后门路径消除混淆偏差
基于反事实的方法
一个并不存在但可以用一些基本规律和人类直觉来推理的世界,相关策略,包括领域自适应,数据增强,公平性和解释。
领域自适应
数据通常会存在选择偏差和混淆偏差,导致训练目标和实际之间的差距,为解决偏差问题,收集无偏数据来进行评估,但是统一分布的数据非常的小,收集方法昂贵,因此为了利用这部分统一数据,会用少量的无偏数据和大量的有偏数据对推荐进行训练,能够学习到有偏数据的反事实分布,这不仅是个反事实的问题,也是个领域自适应问题。【22】训练一个无偏归因模型,计算有偏和无偏数据中观察到和未观察到的事件标签。【156】提出一个KDCRec模型,反事实推荐的知识蒸馏框架,教师网络以无偏数据作为输入。
数据增强
工作集中在将反事实融到数据增强的过程中,大致通过一些方法生成反事实的数据,从而达到数据增强的功能。【156】在用户特征偏好生成数据新的数据样本,生成更有效的数据,利用反事实中的最小化数据,学习用户特征偏好的最小变化,在给定项目对上逆转偏好排名。例如给一个苹果用户略微提升价格关注,可能小米更有吸引力,这就是个有效的反事实样本。CASA【16】通过用户历史化数据最小调整生成物品的反事实序列,CauseRec【157】在用户历史序列中确认必需要素,例如用户兴趣,噪声行为在表达用户兴趣的时候就不是必要的。因此替换原始用户中不可或缺的特征会导致用户表达的偏差。【152】用户影响用户兴趣分成两种类型,内原因和外原因,然后生成反事实数据样本。