因果推断深度学习工具箱 - Perfect Match: A Simple Method for Learning Representations For Counterfactual Infe...

文章名称

Perfect Match: A Simple Method for Learning Representations For Counterfactual Inference With Neural Networks

核心要点

现有的深度学习的overly complex，作者通过propensity matching的方法，用目标样本其他treatment下的最近邻样本，构造训练的mini-batch，通过数据增广的方式来解决观测数据下因果推断的2个基本问题，1）缺失的反事实；2）混淆偏差。
比较大的优势是，这种方法不同于介绍过的文章，可以应用于multiple treatment。

方法细节

问题引入

文章建立在potential outcome框架下，并且需要满足unconfoundness的假设，即 $Y \perp \!\!\! \perp T | X$ 。为了需要估计因果效应 $T(x) = \mathbb{E}[Y_i(1) - Y_i(0) | X=x_i]$ ，比较老的方法采用直接建模的方式，比如 $\hat{T}(x) = f(x_i, 1) - f(x_i, 0)$ ，也就是我们常说的single learner（如果两个 $f$ 带有下表就是T-learner）。这种建模方式的弊端是高维的特征 $x_i$ 会淹没低纬度的干预 $t_i$ 。
如果采用T-learner，不会存在干预被淹没的问题，也比较灵活，却引入了模型误差带来的因果效应估计的偏差，并且牺牲了统计效率，不能够充分利用样本。

具体做法

首先，作者扩展了TARNET，把two heads扩展成为multiple heads，模仿TARNET解决treatment在 $x$ 维度较高的时候，被淹没的情况。但是这个改进非常subtile[汗]。
其次，作者利用propensity score做balancing，构造虚拟的随机实验mini-batch。其实是利用最近邻matching的方法，做数据增广，期望在梯度回传的时候减少overfit，来解决由于混淆变量引起的训练样本分布不均，以及预测时分布迁移的问题。
同时，作者定义（拓展）了一些评价指标，首先，利用真实值和估计值，拓展了PEHE到 $\hat{\epsilon}_{mPEHE}$ ，其中，在multiple treatment的时候，采用的是pairwise的平均值。这种指标需要我们知道真实的各种counterfactual，除非模拟数据，不然是不现实的。因此，模型选择的部分，作者也提出了基于NN的 $\hat{\epsilon}_{NN-PEHE}$ ，

$\epsilon_{PEHE}$

metrics for multiple treatments

NN-PEHE

最后作者也证明了为什么这样的训练数据下，利用SGD能够得到causal effect的一致性估计。证明的核心逻辑是，利用各种因果效应可以被识别的假设，推导出我们是在做条件期望的极限。当N趋于无穷大时，极大概率会有一个样本是和当前样本特征一模一样，但treatment不一样的。我们可以利用这样的样本估计因果效应。个人觉得，建立在positive的假设下，这个证明应该是没问题的。。

proof of consistency

代码实现

文章中的伪代码，思路上还是比较直接的，每个mini-batch，利用propensity score寻找最近的样本，返回mini-batch。后续直接用改进的TARNET进行训练。

pseudo code

To be continued...

心得体会

model selection criteria

文章另外比较大的贡献是提供了一些模型评价指标，可以用来做模型选择，并且公开了可以用来验证multiple treatment下模型性能的基准数据集。虽然个人觉得 $\epsilon_{nnPEHE}$ ，其实就是作者训练的思路，有点作弊的嫌疑。但是，还是对观测数据下的模型筛选，提供了一个思路（虽然这个思路，很在就有了，参见reference[1]，但是作者详细定义了指标，也与非nn的指标进行了统一）。

nearest neighbor matching

构造mini-batch的时候，可以采用多种matching的方法，包括最近邻，k近邻等等，甚至不用propensity score作为balancing score，这些方法都可以从传统的balancing里借鉴，甚至结合一些其他的balancing weighting学习的方法（后续会介绍，比如利用adversarial training）。这种trick也许在工业界，能有不错的效果。
同时，这种方法和另外一些新兴的imputing的方法有异曲同工之妙。

matching in minibatch&efficient in heavy overlap region

个人理解PM是matching的一种minibatch版本。在样本特征分布重合度较高的地方，会被加强。因为特征分布重合度较高意味着对每一个样本，有充足的其他treatment下样本可以用来学习反事实。最极端的情况是，正好有特征完全重合的样本，可以用来估计该样本的causal effect。之前介绍的propensity dropout也是希望充分利用overlap度较高的样本训练模型，从这个角度说，两偏文章分别利用了两种深度学习技巧augmentation和dropout来解决因果推断的基本问题，简单直接好理解，角度也比较新颖。
另外，考虑到神经网络需要大量的样本进行训练，propensity dropout确实也可能存在作者所说的样本利用率欠缺的问题，考虑到神经网络需要大量的样本进行训练。其实也就是深度神经网络的训练技巧，数据增广方法的各种花样也许都可以用来结合一下构造样本。
作者也提到mini-batch的方法类似于minibatch sampling strategy，只不过是用在了causal inference的场景。这种mini-batch的方法优于整体做augmentation，因为，整体augmentation之后，还需要再采样mini-batch，相同covariates的样本可能并不会被分到同一个mini-batch，反而没有起到虚拟随机实验的模拟效果。

simple to use

PM方法确实非常简单直接，因为不需要改变网络结构、损失函数，并且没有添加任何额外的计算，所以理论上是可以和任何神经网络相关的causal inference方法组合的。但是，由于训练是改变了样本周边的分布，相当于加权了和当前样本相关的周边的别的treatment的样本，如果和其他调整样本分布的方法，比如re-weighting的方法一起使用时，需要考虑re-weighting的学习过程是否收到影响。

文章引用

[1] Kapelner, A., Bleich, J., Levine, A., Cohen, Z., DeRubeis, R., & Berk, R. (2021). Evaluating the Effectiveness of Personalized Medicine With Software. Frontiers in Big Data, 4.
[2] Shalit, U., Johansson, F.D., & Sontag, D. (2017). Estimating individual treatment effect: generalization bounds and algorithms. ICML.
[3] https://github.com/d909b/perfect_match/tree/master/perfect_match/models

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 199,830评论 5赞 468
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 83,992评论 2赞 376
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 146,875评论 0赞 331
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 53,837评论 1赞 271
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 62,734评论 5赞 360
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,091评论 1赞 277
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,550评论 3赞 390
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,217评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,368评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,298评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,350评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,027评论 3赞 315
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,623评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,706评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,940评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,349评论 2赞 346
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 41,936评论 2赞 341