目前对因果推断学的一知半解的，不是很看的明白，看了个论文做下笔记，有问题的希望指正

摘要：

因果有能力构建推荐系统中的因果性，处理混淆因子的影响以及反事实问题（离线策略评估和数据增强）。但目前对推荐的分类都集中实际应用的问题上，这种分类方法会分散和分割单一的因果理论。考虑到因果性，综述从因果的角度上来对推荐方法进行分类，将因果性融合进推荐系统当中。从因果理论角度对最新文章进行一个系统性概括，并跟踪了同一因果策略下推荐系统的发展。1）提出因果推断的概念；2）提出因果的分类法，潜在结果框架（PO），结构因果模型(SCM)以及反事实方法。3)因果在推荐领域中的前景研究

介绍：

因果推断现在应用在学术和工业领域，例如药物，气候，在线广告评估等。因果在推荐领域的使用集中在uplift模型当中，作为政策效用的评估，目前研究倾向于模型的训练。因果可以使用在推荐的各个方面，例如数据收集，用户和项目的表达学习，目标优化，在线政策评估。

因果推荐的优点：

模型因果，目前的机器学习都研究变量之间的相关性，但是在实际应用过程中更注重因果关系，比如推荐过程中，用户很可能因为流行度选择了一项物品，并不是因为用户的兴趣爱好选择的，这种用户兴趣和物品种类混淆相关，会降低用户的体验感。因果推荐系统可以分别学习用户的兴趣和流行度相互作用的结果。基于因果的推荐系统1）用户交互偏差的因果效应，偏差的原因是因为流行度和暴露，数据的去偏是目前的一个研究方向；2）对变量因果效应的分解和推理，利用一定偏差的因果效应来提高推荐准确性。
反事实推理，与真实数据有所不同，其问题主要集中在数据增强，分布外数据泛化，政策评估。1）数据增强问题，作为观察数据的一个补充资源； 2）OOD问题指的是训练集和测试集不满足于独立同分布（IID）,传统的推荐系统会学习到用户和物品之间的一种虚假相关，而因果推荐用反事实的方法找到不变量或者不变的变量，或者因果关系，并在数据分布变化的时候泛化。3）uplift模型评估增长

图片.png

现有的研究

目前的研究集中在三种类型：潜在结果（PO）框架，结构因果模型（SCM）以及反事实。PO和SCM-based方法利用特定的因果推断技术，但是前者没有明确的使用结构信息；另一方面，反事实方法没有特定的方法
推荐中因果方法的演化：

倾向分数策略演化.png

反事实方法演化.png

PO-based框架

早期研究集中在po框架，主要将po框架应用到深度学习的优化函数中，或者强化学习的方法奖励中。这个方法又可以分成两个类别，倾向分数和因果效应。前者利用评估的倾向分数进行重新分配权重，因果效应集中处理和控制下的po之间的差异。

倾向分数策略：
协变量X（用户商品特征，时间等信息），决策方法 $\pi$ ，决定了是否要一个有效的手段 $t=\pi(t|x)$ ，因此潜在结果po为 $y=Pr(y|x,t)$ ，作为一种“奖励”的观察数据， $\pi$ 的有有效性可以被评估，作为一种评估策略，通常使用A/B测试，但成本太高，因此一个代替的方案，计算评估 $\hat{R}$ 作为采用策略 $\pi$ 的奖励，但是这种方法面临着非随机缺失问题（MNAR）。
为处理这个问题，1）早期的处理方法是直接预测缺失值，但是会有巨大的数据偏差问题。2）当前采用倾向分数e(x)来处理数据分布。倾向分数的作用：纠正暴露偏差，克服混淆问题，用暴露模型计算倾向分数，并估计未观察到的混杂因素；学习未观察到的混淆因素的低秩嵌入，学了individual 嵌入从暴露中获得PO信息，寻找隐藏关系；3）对比学习与倾向分数的结合解决噪声数据，比如CCL框架，使用倾向分数生成信息正样本对作为对比学习。
倾向分数可分为逆倾向分数IPS和doubly robust(DR)，克服数据的有偏性和模型的不可知性。

MNAR

随机缺失NAR可导致有偏预测和次优策略，1）选择偏差：在预测任务中出现，通常可分为模型选择偏差和用户自选偏差，模型选择偏差指的是系统没有考虑综合因素而推荐的偏差，由随机推荐消除这个偏差，通常为流行度和暴露偏差；用户自选偏差，不能随机化消除，优先排除样本数据造成的，通常是从众性偏差和点击偏差。2）混淆偏差，能够影响到T和Y，定义为统计相关的概率分布不等同于干预分布，例如，用户历史数据训练的系统会过度推荐用户过去喜欢的项目，用户也会收到历史数据的影响影响其决策。
这两种偏差会导致因果的无效估计，选择偏差并没有明确的因果关系

IPS或者IPW或者IPTW

是一种反事实类别里边的技术，通常用于数据去偏和无偏学习。
给定协变量X引起治疗T的概率 $e(x)=Pr(T=1/X)$ ，并为每个样本赋值一个w的值，IPS调整日志数据集中背景特征的分布，使得测试数据集分布一致。
IPS-based算法侧重于用户交互中的数据去偏，主要是选择偏差，倾向分数可以有朴素贝叶斯或者逻辑回归得到，主要模型有DLCE，unbiased IPS-based uplift,UR-IPW。 IPS方法并不需要有明确的因果结构图，但有些工作也会组合结构图和IPS，模型有DENC，拆解了3个影响outcome的因素，及内部因素，社交网络混杂因素以及暴露因素。
还有各种IPS的变种，来解决其他的问题，比如在求解IPS过程中引起的高方差问题，提出了一些IPS的变种来解决这类问题，比如clipped IPS（CIPS），interaction IPS（RIPS序列推荐），self-normalized inverse propensity scoring(SNIPS)

DR

另一种解决非随机缺失问题的方法，direct method（DM）通过回归模型对缺失值进行预测，监督学习优势方差较低，但是因为不满足IID而存在的高偏差。DR方法的优点是能够评估outcome来减轻IPS的方差，控制由于IPS引起的高方差问题。

causal effect strategy

uplift
目前使用最主要的方法，uplift模型，因果效应通常描述成一个直接或者间接的优化目标，最大化利益。treatment（T）可以代表别的一些应用，能够提升这个uplift模型的。
由推荐引起的因果效应的提升，但是研究表明在没有建议的情况下仍然有75%的点击率的产生，因此在投资回报率的角度来说，这些部分的建议不是必要的。
uplift是个反事实的问题，在其模型中，引入了因果概念（ATE和CATE）。因果与传统机器学习的结合对于uplift的评估包含两种方法：transformed outcome和uplift tree。推荐系统中，A/Btest的uplift评估由于用户自我选择的偏差造成的高花费和大波动，各种偏差可能会导致MNAR，解决这个问题，提出了一些方案来提升uplift的评估，比如SNIPS-base ATE， CATE-based uplift 模型。此外CausCF模型对MF模型进行张量分解成三个维度（用户，物品以及Treatment effect）以此来达到更好的uplift效果。CF-MTL模型【107】对用户进行细粒度的分类，并评估每种用户的概率。
beyond uplift
采用贝叶斯模型来推断新曲发布的因果影响【118】，【65】最小化注意力机制的权重和ITE之间的距离来反映特征对交互的真实影响，【119 22】利用大样本偏差数据的ITE和小样本无偏数据来消除数据偏差的问题

SCM-based方法

与PO框架相比，构建因果结构图非常的直观明了，根据结构分为三类：对撞结构，中间结构，混杂结构

对撞结构 collider structure

对撞结构最基本的的情况会是C=A+B的形式，目前的工作有DICE【66】这个模型，从用户的角度来跟踪流行性，降低流行偏差，把用户和项目embedding分离兴趣和从众embedding，在碰撞效应的驱动下，使用特定的从众性和兴趣数据进行分离，如果用户交互一个非流行的项目，那么就表明用户是根据兴趣来选择这个物品的。CIGC（causal incremental graph convolution）【123】提出碰撞效应蒸馏算法有效地再训练基于GCN的推荐模型，通过计算不活跃点和新数据点之间的距离。

中介结构

当一个变量导致另一个变量，可能不是直接导致，而是通过一组中介变量来做。

混淆结构

混淆结构的问题处理方法可分为四类：后门方法，变量工具（IVs），前门调整，深度学习干预。

后门路径方法
后门路径的定义：给定一个T->Y，连接T到Y的一个路径满足，1）没有个直接路径，2）没有碰撞
后门路径可以确认混淆元素，是后门路径上的一个分叉节点。例如再评估T->Y的效应，有一条后门路径T<-A->
Y，A为混淆因子，需要控制A阻止后门路径消除混淆偏差

基于反事实的方法

一个并不存在但可以用一些基本规律和人类直觉来推理的世界，相关策略，包括领域自适应，数据增强，公平性和解释。

领域自适应

数据通常会存在选择偏差和混淆偏差，导致训练目标和实际之间的差距，为解决偏差问题，收集无偏数据来进行评估，但是统一分布的数据非常的小，收集方法昂贵，因此为了利用这部分统一数据，会用少量的无偏数据和大量的有偏数据对推荐进行训练，能够学习到有偏数据的反事实分布，这不仅是个反事实的问题，也是个领域自适应问题。【22】训练一个无偏归因模型，计算有偏和无偏数据中观察到和未观察到的事件标签。【156】提出一个KDCRec模型，反事实推荐的知识蒸馏框架，教师网络以无偏数据作为输入。

数据增强

工作集中在将反事实融到数据增强的过程中，大致通过一些方法生成反事实的数据，从而达到数据增强的功能。【156】在用户特征偏好生成数据新的数据样本，生成更有效的数据，利用反事实中的最小化数据，学习用户特征偏好的最小变化，在给定项目对上逆转偏好排名。例如给一个苹果用户略微提升价格关注，可能小米更有吸引力，这就是个有效的反事实样本。CASA【16】通过用户历史化数据最小调整生成物品的反事实序列，CauseRec【157】在用户历史序列中确认必需要素，例如用户兴趣，噪声行为在表达用户兴趣的时候就不是必要的。因此替换原始用户中不可或缺的特征会导致用户表达的偏差。【152】用户影响用户兴趣分成两种类型，内原因和外原因，然后生成反事实数据样本。

因果推荐分类.png

因果推荐综述