因果推断深度学习工具箱 - On Inductive Biases for Heterogeneous Treatment Effect Estimation

文章名称

On Inductive Biases for Heterogeneous Treatment Effect Estimation

核心要点

在估计CATE的时候,通常做法是分别估计出不同的potential outcome的结果,而现有做法在单独估计potential outcome的时候没有有效的利用potential outcome之间的结构相似性。 试想一下,如果treatment effect是0(干预无效),那么合理的假设是potential outcome是相似的。而现在通常的做法不经意的假设potential outcome是有差别的。比如,现有的方法中引入的一些正则化策略,隐式的鼓励模型在不同potential outcome下具有异质性(结果不相同),即便这种异质性可能并不存在。同时,这种正则化导致没有充分利用共享结构。作者提出了三种方法,包括改进的正则化方法,重参数化模型,以及一种更为灵活的多任务学习结构,这种结构不只是直接估计potential outcome,而结合直接估计effect的目标,间接地引入了potential outcome之间的相似性。

paper的切入点是探索potential outcomes之间结构的相似性,这个角度与现有各种调整confounding bias的方法是正交的,即便在随机实验下,探索potential outcomes之间结构的相似性也能够帮助我们更好的预测CATE和potential outcome。

方法细节

问题引入

文章关注的核心问题是,在Potential Outcome框架下,估计二值策略(binary treatment)的CATE。切入点是探索potential outcomes之间结构的相似性,这个角度与现有各种调整confounding bias的方法是正交的,即便在随机实验下,探索potential outcomes之间结构的相似性也能够帮助我们更好的预测CATE和potential outcome 。除了confounding的问题以外,作者认为CATE估计的另一个关键因素是两个potential outcome之间的差值(的结构)。这一点和现在主流causal effect估计方法首先关注反事实估计,再进行causal effect求解有一些不同。主要原因是,相比每个单独的potential outcome的函数结构来说,potential outcome的差值(在binary的情况下就是causal effect)的结构可能更加简单。
假设某种干预没有治疗效果,理所当然的两种不同的treatment下的potential outcome应该完全一样,在整个人群的分布上也具有同样的结构。同时,即便干预存在因果效应,我们也有理由认为这些potential outcome具有相似或者共享的结构。作者提出的主要依据是,在医学上存在两种biomarkers。一种被观察对象接受了哪一种干预,我们都可以用它(们)来预测potential outcome。另一种是用来预测treatment effect的biomarkers。个人理解,作者其实是在对potential outcome的predictor进行分解。
同时,数据里也观测到了如下图所示的potential outcome的结构与CATE的结构对比。可以看出关于covariates的potential outcome functions都是非线性的,而CATE却是线性的。

CATE structure is simpler than POs themselves

与监督学习和单纯的反事实估计模型不同,估计因果效应,需要准确估计的是两者的差值。假设估计某一个统计量的函数是\hat{f}(x),直接估计CATE的MSE的上界是分别估计两个potential outcome的MSE的和,即\epsilon_{sq}(\hat{\tau}(x)) \lesssim \epsilon_{sq}(\hat{\mu_{1}}(x)) + \epsilon_{sq}(\hat{\mu_{0}}(x)) \lesssim Rate_{\mu_{1}} + Rate_{\mu_{0}}(感兴趣的同学可以参见论文的引文),因此,直接估计CATE能够加速收敛。

具体做法

解决上述问题的最简单的方法是直接估计causal effect,但是这类方法目前都是多阶段的,并且除了causal effect之外,不能给出对potential outcome的估计。但很多时候,我们对potential outcome也非常感兴趣。作者借鉴了最近的一些神经网络causal effect估计方法的观念,提出了一种充分利用共享结构,从而更好的同时估计causal effect和potential outcome的端到端的学习方法。作者称之为inductive bias(归纳偏差,因为通过归纳总结,我们知道不同potential outcome应该具有相似度function结构)。
作者尝试了三种方法,希望能够通过plugin的方式改善预测性能。第一种方法是利用正则化方法,鼓励potential outcome function具有相似度结构,这种方法能够比较容易的和已有方法结合。第二方法是通过重参数化的形式改变现有模型,直接在模型中引入potential outcome输出具有相似性的限制。第三种方法基于多任务学习,提出了一种新的结构网络结构(这种方法其实已经不能plugin了...)。

为了引入合理的inductive bias(不同的potential outcome的结构有比较大的相似),作者以TARNet和TNet(以NN为base model的T-learner)为例,进行改造。TARNet和TNet的区别仅在于,在两个不同treatment的prediction head之间是否有(学习到的)共享的feature space。与文章的改进比较相关的是最后的regularization的部分。通常不同的potential outcome的prediction head是分开进行正则化的,即loss中会加入形如\lambda \sum_{w\in\{ {0, 1} \}}{\mathcal{R} (\Theta_{h_{w}} )}的部分,\Theta_{h_{w}}w 取0或1的时候分别表示分别表示对应prediction head的参数。这样的正则化由于没有充分利用结构相似这个信息,导致CATE的估计值很不稳定。

three methods for CATE estimation with inductive bias

第一种做法是,直接改变正则化的形式,即\lambda_1 \mathcal{R}( \Theta_{h_{0}} ) + \lambda_2 \mathcal{R}(\Theta_{h_{1}} - \Theta_{h_{0}} )。这种正则化形式,显示的要求两个prediction head的形式相对接近,接近程度可以通过\lambda_2调节。
第二种做法是,把原来分别预测potential outcome的形式,改为分别预测\mu_{0}(x)\tau(x),而\mu_{1}(x) = \mu_{0}(x) + \tau(x)。再改变正则项,即\lambda_1 \mathcal{R}( \Theta_{h_{0}} ) + \lambda_2 \mathcal{R}(\Theta_{h_{\tau} } ),其中\Theta_{h_{\tau} }表示直接估计CATE的网络的权重。这样的做法不仅引入了potential outcome结构相似的信息,同时也引入了\mu_{1}(x)\mu_{0}(x)\tau(x)之和的信息。这样的假设有可能存在偏差,导致一些复杂关系学不到。其实这里相当于假设过强,导致heterogeneity被忽略了。
第三种做法,作者基于多任务学习和领域迁移的自主学习share哪些信息,保留哪些信息的idea,提出了FlexTENet。我们可以把网络看作三个信息提取流(器),不同于原有的网络结构,这三股信息提取流在神经网络的每一层都有,包括共享特征层和最终的potential outcome输出层(当然网络最终已经模糊了这两个层的分解)。中间的提取流学习共享信息,或者说学习特征的相似性以及potential outcome的结构相似性,这部分内容其实也起到了balance confounding的作用。同时,为不同的potential outcome分别构造网络进行预测。这样的结构保证每一层可以有不同的共享信息和独立信息。此外,FlexTENet把正则项修改为,\lambda_1 \mathcal{R}(\Theta_{s } ) + \lambda_2 \sum_{w\in\{ 0, 1 \}}{\mathcal{R} (\Theta_{p_{w} } )} + \lambda_o \mathcal{R_{ o }}(\Theta_{s }, \Theta_{p_0 }, \Theta_{p_1 }),其中\mathcal{R_{ o }}(\Theta_{s }, \Theta_{p_0 }, \Theta_{p_1 }) = \sum_{w\in\{ 0, 1 \}}\sum_{l=1}^{L}{ || { \Theta_{s }^{l}}^{ \top} \Theta_{ p_w, 1:n_{s}^{l-1} }^{l} ||_{F}^{2} }。这个正则项在对每一个单独的组成部分进行复杂度限制的同时,鼓励每个potential outcome的prediction head与共享层的距离不要太远

心得体会

covariates decomposition

作者提到的biomarkers,有一些类似于covariates decomposition。在最近一些主流神经网络因果模型中,经常见到的因果图如下。B是我们通常理解的confounder,而C和作者说的第一种biomarker类似,A这里作者没有提到。由于过滤了噪声,相当于进行了特征选择,这种decomposition能够帮助我们更准确的对potential outcome。这一idea已经成为最近很多paper的源泉。这里讲到这篇paper是从potential outcome的函数结构上来解释的,而这个函数是关于covariates的,所以,对函数结构的分解,其实是对covariates的分解。


covariates decomposition

directly predict CATE

paper中提到,直接估计CATE在大部分的时候会比直接估计potential outcome要简单。主要原因是causal effect相对于potential outcome来说会相对小。但是也不排除causal effect变化更为剧烈的情形。另外,X learner能够取得比较好的结果,其实也受益于中间构造的pseudo outcome,而这其实是在直接估计causal effect,间接地是在学习不同potential outcome之间的结构相关性。也许,同时估计causal effect和potential outcome也能带来效果提升。类的DragonNet中的propensity score head,可以再加一些估计相似结构的组件。
虽然,paper里提到了直接估计causal effect的好处,但其实只在第二种方法中实际应用了。

Theoretical justification

paper中没有给出详细的理论证明,只是提到了一些相似的领域有证明,所以主要是讲了一些idea。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,830评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,992评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,875评论 0 331
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,837评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,734评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,091评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,550评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,217评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,368评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,298评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,350评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,027评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,623评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,706评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,940评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,349评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,936评论 2 341

推荐阅读更多精彩内容