文章名称
Learning Decomposed Representation for Counterfactual Inference
核心要点
沿袭了DR-CFR的思路,把covariates分解成confounder ,Adjustment
和instrument
,准确的找出confounder,解决因为控制非confounder而带来的bias。作者通过分析因果图,利用随机变量(条件)独立性,并最大化Adjustment
对outcome的预测能力,以及Instrument
对treatment的预测能力 ,做到尽量准确(不多不漏)的分解covariates到3中不同类型的latent variable(Instrument
,Adjustment
和confounder
)。
方法细节
问题引入
同DR-CFR[1]一样,作者认为当前的因果推断方法,把所有的covariates都当做confounders反而会引入新的bias(比如,由于样本噪声,模型会用一些实际上不同时影响treatment assignment和outcome prediction的特征来进行样本平衡,造成对outcome的估计存在偏差。)。虽然DR-CFR[1]也把covariates分成了3中不同类型的latent variables,但是由于没有最大化对treatment的预测能力(DR-CFR[1]里没有对
也就是这里的
做限制),导致instrument
和confounder
不一定能够被有效的区分开(不仅仅是
和
区分不开会造成bias,区分不开
和
也会有bias,参见[2]),最极端的情况下,
,
。
具体做法
通过分析上边的因果图,可以发现,
- Adjustment
和treatment
应该是完全独立的,即
,添加这个限制可以保证
和
里的元素不会被嵌入到
中(因为数据的相关性上,他们应该是和
不独立的);
应该能够尽可能的预测好
,这样做能保证
里的信息不要漏到别的要素里去;结合两者,尽可能做到
不多不漏。
- 如果balancing做的好,
和
将独立,并且
和
将没有关系,即
。其实,这部分可以理解为,做好不同treatment下的confounder平衡之后,
到
的因果关系被去掉了,当
给定的时候,本来collider结构
和
将不独立的,反而边独立了。更重要的是,本来
可以通过
影响
,现在也变成独立了。在给定
之后,
将和
完全独立(也就是前边的条件独立)。这样做的好处和
一样,确保别的元素不会被嵌入到
中。同时,
应该能够尽可能的准确估计
。这样做也是为了保证
里的信息不要漏到别的要素里去。
- 最后,我们发现outcome prediction是和
与
都有关系的。因此需要利用两部分的信息(平衡好的
和
),准确的估计factual和counterfactual。
基于上述分析结果,作者采用三种正则化的方式来分离covariates。
- 第一个正则化是最小化不同treatment下,
的分布差异,也就是
。同时,最小化利用
预测
的损失。其中,disc是discrepancy,代表两个分布的差异,可以用IPM来表示,详情参见DR-CFR[1]。
loss to split A - 第二个正则化是用来balancing不同treatment下的特征分布。如图所示,不同treatment下的confounder的分布差异将被最小化。值得注意的是,这里的特征的分布是被在样本级别加权的,之前的方法钟,加权只存在于factual prediction的loss里边。并且,这里的
是学习出来的参数,并不是用propensity score来当做weight值的。
loss to balance C - 第三个正则化是用来最小化,不同treatment下Instrument
的差异。同样,这里也在样本层面利用
进行了加权。这样做的原因是,
意味着样本在不同treatment下是平衡的,只要平衡了样本之后,
和
之间的依赖关系才被阻断,进而
。所以,这里必须进行样本加权,并且权重和第一个loss里的权重是一致的。同时,外层的
表示所以
上做分布均衡,求和好里边的部分,意味着“给定
”。
loss to split $I$
除此之外,还有一些加强效果的改进,比如正交正则化,强制进行covariaites分解。 - 借鉴[2]中的思路,把神经网络的网络权重看做是输入对输出的影响的大小。那么,平均每一层的权重后得到的网络权重矩阵是输入对输出的整体影响的大小。
代表
对
的影响,或者加成分解到的比率。其他同理(上标
代表转置)。所以,如果能够充分分解,则这些矩阵应该是正交的(为了消除平凡接,矩阵的元素和为1)。
image.png
最后,需要对outcome进行预估,估计损失如下图所示,
weighted factual loss
作者仍然采用交替优化的方式来优化权重和其他参数。值得注意点是,是在两个loss中都存在的。
代码实现
(留坑待填...)
心得体会
weighting in
在这里加权,其实是期望模拟balancing中的weighting方法,只不过结合了分布最小化的思路。如果权重是propensity score,那么其实就是IPW的方法。其他的weighting方法是直接学习对应的weight,来避免对propensity score模型的强依赖(IPW中propensity score模型不准,一切就都不准了)。
distribution discrepancy minimization means independency
其实,所有的disc都是用来让两种随机变量独立。其中,和
独立,
和
独立(在给定
的情况下),
和
独立。最小化分布差异的时候,用到的随机变量分布,和划分准则(即
中的下标),代表了谁和谁独立。
multiple treatment/distribution disc
其实,可以利用pair-wise的方法来做多个treatment的独立。但是这样的计算量比较大,也许可以找一些边界,来进行夹逼。
文章引用
[1] N. Hassanpour and R. Greiner. Learning disentangled representations for counterfactual
regression. In International Conference on Learning Representations, 2020.
[2] K. Kuang, P. Cui, B. Li, M. Jiang, S. Yang, and F. Wang. Treatment effect estimation with
data-driven variable decomposition. In Thirty-First AAAI Conference on Artificial Intelligence,