因果推断深度学习工具箱 - Learning Decomposed Representation for Counterfactual Inference

文章名称

Learning Decomposed Representation for Counterfactual Inference

核心要点

沿袭了DR-CFR的思路，把covariates分解成confounder $C$ ，Adjustment $A$ 和instrument $I$ ，准确的找出confounder，解决因为控制非confounder而带来的bias。作者通过分析因果图，利用随机变量（条件）独立性，并最大化Adjustment $A$ 对outcome的预测能力，以及Instrument $I$ 对treatment的预测能力，做到尽量准确（不多不漏）的分解covariates到3中不同类型的latent variable（Instrument $I$ ，Adjustment $A$ 和confounder $C$ ）。

方法细节

问题引入

同DR-CFR[1]一样，作者认为当前的因果推断方法，把所有的covariates都当做confounders反而会引入新的bias（比如，由于样本噪声，模型会用一些实际上不同时影响treatment assignment和outcome prediction的特征来进行样本平衡，造成对outcome的估计存在偏差。）。虽然DR-CFR[1]也把covariates分成了3中不同类型的latent variables，但是由于没有最大化 $I$ 对treatment的预测能力（DR-CFR[1]里没有对 $\Gamma$ 也就是这里的 $I$ 做限制），导致instrument $I$ 和confounder $C$ 不一定能够被有效的区分开（不仅仅是 $C$ 和 $A$ 区分不开会造成bias，区分不开 $I$ 和 $C$ 也会有bias，参见[2]），最极端的情况下， $I = \emptyset$ ， $C = \{I, C\}$ 。

covariates decomposition

具体做法

通过分析上边的因果图，可以发现，

Adjustment $A$ 和treatment $T$ 应该是完全独立的，即 $A \perp T$ ，添加这个限制可以保证 $C$ 和 $I$ 里的元素不会被嵌入到 $A$ 中（因为数据的相关性上，他们应该是和 $T$ 不独立的）； $A$ 应该能够尽可能的预测好 $Y$ ，这样做能保证 $A$ 里的信息不要漏到别的要素里去；结合两者，尽可能做到 $A$ 不多不漏。
如果balancing做的好， $I$ 和 $Y$ 将独立，并且 $C$ 和 $T$ 将没有关系，即 $I \perp Y|T$ 。其实，这部分可以理解为，做好不同treatment下的confounder平衡之后， $C$ 到 $T$ 的因果关系被去掉了，当 $T$ 给定的时候，本来collider结构 $I$ 和 $C$ 将不独立的，反而边独立了。更重要的是，本来 $I$ 可以通过 $C$ 影响 $Y$ ，现在也变成独立了。在给定 $T$ 之后， $I$ 将和 $Y$ 完全独立（也就是前边的条件独立）。这样做的好处和 $A \perp T$ 一样，确保别的元素不会被嵌入到 $I$ 中。同时， $I$ 应该能够尽可能的准确估计 $T$ 。这样做也是为了保证 $I$ 里的信息不要漏到别的要素里去。
最后，我们发现outcome prediction是和 $C$ 与 $A$ 都有关系的。因此需要利用两部分的信息（平衡好的 $C$ 和 $A$ ），准确的估计factual和counterfactual。

基于上述分析结果，作者采用三种正则化的方式来分离covariates。

第一个正则化是最小化不同treatment下， $A$ 的分布差异，也就是 $A \perp T$ 。同时，最小化利用 $A$ 预测 $y$ 的损失。其中，disc是discrepancy，代表两个分布的差异，可以用IPM来表示，详情参见DR-CFR[1]。

loss to split A
第二个正则化是用来balancing不同treatment下的特征分布。如图所示，不同treatment下的confounder的分布差异将被最小化。值得注意的是，这里的特征的分布是被在样本级别加权的，之前的方法钟，加权只存在于factual prediction的loss里边。并且，这里的 $w_i$ 是学习出来的参数，并不是用propensity score来当做weight值的。

loss to balance C
第三个正则化是用来最小化，不同treatment下Instrument $I$ 的差异。同样，这里也在样本层面利用 $w_i$ 进行了加权。这样做的原因是， $w_i$ 意味着样本在不同treatment下是平衡的，只要平衡了样本之后， $C$ 和 $T$ 之间的依赖关系才被阻断，进而 $I \perp Y|T$ 。所以，这里必须进行样本加权，并且权重和第一个loss里的权重是一致的。同时，外层的 $\sum_{k=\{0, 1 \} }$ 表示所以 $T$ 上做分布均衡，求和好里边的部分，意味着“给定 $t = k$ ”。

loss to split $I$

除此之外，还有一些加强效果的改进，比如正交正则化，强制进行covariaites分解。
借鉴[2]中的思路，把神经网络的网络权重看做是输入对输出的影响的大小。那么，平均每一层的权重后得到的网络权重矩阵是输入对输出的整体影响的大小。 $\overline{W}_{I}$ 代表 $X$ 对 $I$ 的影响，或者加成分解到的比率。其他同理（上标 $T$ 代表转置）。所以，如果能够充分分解，则这些矩阵应该是正交的（为了消除平凡接，矩阵的元素和为1）。

image.png

最后，需要对outcome进行预估，估计损失如下图所示，

weighted factual loss

作者仍然采用交替优化的方式来优化权重和其他参数。值得注意点是， $L_R$ 是在两个loss中都存在的。

alternative minimizing

代码实现

（留坑待填...）

pseudo code

心得体会

weighting in $L_{C\_B}$

在 $L_{C\_B}$ 这里加权，其实是期望模拟balancing中的weighting方法，只不过结合了分布最小化的思路。如果权重是propensity score，那么其实就是IPW的方法。其他的weighting方法是直接学习对应的weight，来避免对propensity score模型的强依赖（IPW中propensity score模型不准，一切就都不准了）。

distribution discrepancy minimization means independency

其实，所有的disc都是用来让两种随机变量独立。其中， $C$ 和 $T$ 独立， $I$ 和 $Y$ 独立（在给定 $T$ 的情况下）， $A$ 和 $T$ 独立。最小化分布差异的时候，用到的随机变量分布，和划分准则（即 $\{ \cdot \}_{ t=i }$ 中的下标），代表了谁和谁独立。

multiple treatment/distribution disc

其实，可以利用pair-wise的方法来做多个treatment的独立。但是这样的计算量比较大，也许可以找一些边界，来进行夹逼。

文章引用

[1] N. Hassanpour and R. Greiner. Learning disentangled representations for counterfactual
regression. In International Conference on Learning Representations, 2020.
[2] K. Kuang, P. Cui, B. Li, M. Jiang, S. Yang, and F. Wang. Treatment effect estimation with
data-driven variable decomposition. In Thirty-First AAAI Conference on Artificial Intelligence,

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 217,542评论 6赞 504
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,822评论 3赞 394
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 163,912评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,449评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,500评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,370评论 1赞 302
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,193评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,074评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,505评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,722评论 3赞 335
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,841评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,569评论 5赞 345
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,168评论 3赞 328
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,783评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,918评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,962评论 2赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,781评论 2赞 354