因果推断下的模型可解释性 - 方法综述

文章名称

Causal Interpretability for Machine Learning - Problems, Methods and Evaluation

问题背景

机器学习方法被越来越广泛的应用到工作中，深度神经网络的成功把感知智能推向一个巅峰。然而，人们常常需要理解模型为什么做出这样的判断？并且在一些极端严谨的场景，如金融、补贴、欺诈等，模型的判断依据和缘由变的格外重要。
机器学习可解释性应运而生，且逐步的被应用到工业场景中。然而，在一些黑盒度较高的模型，如深度神经网络，中上进行有效的解释十分困难。随着机器学习可解释技术的不断发展，难题逐渐被攻克。不过，传统的可解释技术更多的依赖于特征和结果变量之间的相关性，有可能会检测出一些相反甚至病态的解释关系。同时，不能回答，“如果某个干预改变了，模型的决策或判断是什么？”这样的反事实相关的问题。

因果推断技术，是专门研究干预到结果效应的方法。通常，我们把相关性看成无向的关系（特征和结果会互相影响，调整一方，另一方会随之变动），而把因果看成有向关系（特征决定结果，只有特征的变化会使得结果变动，而不存在反向关系）。因果关系，通常是多场景稳定的，并且相比于相关关系，受到的干扰较小。因此，以因果为依据的决策或判断更加稳定，也是我们希望机器学习方法能够学习到的关系。（我们希望，机器学习方法是因为看到毛，胡须，脚掌上的肉垫以及没有虎皮花纹等特征，而判断某物体是猫。并非因为猫身边大概率有毛线球、猫砂和铲屎官，而够狗没有。）
反事实估计与反事实推理是因果推断技术的重要组成部分。（个人理解）因果推断可以被理解为想要回答，1）what cause（Why）；2）what if。回答what if，必须基于多种干预下的结果。而在观测中缺少反事实结果是因果推断的根本问题。与估计因果效应不同（这类方法主要解决如何消除偏差以及估计反事实，并基于此判断不同干预下的结果差异），基于因果的机器学习可解释性方法，主要基于反事实来解释，“如果在其他场景（干预）下，模型会做出怎样的决策或判断？”，来展示机器学习模型所学习到的因果关系。

Judea Pearl曾经阐述过不同层次的可解释性，并强调生成反事实的解释是最高层次的。Pearl的可解释性层次大概可以分为如下三层，

统计相关的解释，这一层次旨在利用相关性来解释我们是如何进行判断的，可以被视为是一种经验上的推断（信念）。
因果干预的解释，这一层次旨在利用干预手段得到一些结果，并基于这些结果进行解释。
基于反事实的解释，这一层次旨在利用一些反事实来进行想象，并基于这些想象进行解释。
（个人认为）第二层和第三层有相似和重叠的地方，第三层是可以进入到完全的想象空间，模拟各种反事实场景的机制解释策略，因此更为全面和可信。其背后是对因果机制的建模，而非探测。

Causal Hierarchy

在社区已经看到有许多精彩的文章详细阐述了传统的机器学习可解释技术。本文（系列）将在接下来详细阐述一下基于因果的机器学习可解释性方法。

方法分类

基于因果的机器学习可解释方法，大致可以分为三类，基于模型的方法，基于样本的方法以及因果关系确认相关方法（由于非重要方向，略去了引用文章中提到的其他部分）。

基于模型的解释方法，主要是从因果效应的角度拆分模型各个部分的作用。例如，计算深度神经网络中，第n层，第m个神经元的改变带来的平均因果效应。相比于传统的可解释性方法，这类方法可以回答“神经网络的一个神经元对最终输出结果有多大因果效应？”，以此衡量模型每个组成部分的重要性，并能够给出一定的量化结果。
基于模型的方法大致可以分为两类，估计因果效应和近似结构化。如上所述，可以通过计算每一个神经元（通常是某个组件，而不是这么细节）在输出变量的因果效应，来确定组件的重要性。近似结构化的方法，通过生成扰动样本的方法，构建一个二部图，图中定点为输入特征的元素与输出结果的元素，边为元素之间的影响关系。通过对二部图进行划分，得到输入、输出各个元素之间影响关系比较紧密的子组件，进而解释模型的决策过程和判断依据。

causal bipartite graph

基于样本的解释方法，旨在通过寻找样本示例，来解释模型的决策和判断过程。反事实样本是在现有事实样本的基础上进行修改，来推断和想象可能的结果。其中，最典型的方法是反事实解释器（counterfactual explanations）。该方法是通过在现有样本上的特征上，进行最小改动，并得到预期的反事实结果并，并收集这些经过微小改动的样本，来对模型的决策进行解释。例如，一个用户从平台流失了。我们尽可能小的变动他的特征，使得模型预测他为留存。观察特征变化，并以此为依据进行解释。这里我们仍然使用了扰动的概念，最小扰动得到的可解释的样本，即反事实估计器。反事实估计并没有真正对样本进行干预，而是通过模型的预测，模拟了人类的想象，因此处于因果阶梯的第三层。
生成反事实解释器的方法大致可以分为6类，包括启发式方法，加权法，基于多样性的方法，混合整数规划求解法，基于原形的方法，以及基于GAN的方法。启发式的方法主要利用距离度量来寻找最小扰动，而加权法在距离度量上为每个特征维度分配不同的权重（权重通过ANOVA F-value得到）。基于混合整数规划的方法，主要应用于特征中有比较多分类特征的场景，其他方法生成的反事实样本，可能为分类特征生成连续值，导致特征不合理，而通过混合整数规划，可以生成合理的反事实样本。基于原形的方法，通过寻找一个具有反事实结果的目标样本，来确定生成方向，加速生成算法收敛（不能直接选择具有反事实结果的样本，是因为他的扰动可能很大）。基于GAN存在多种反事实生成方法，较为简单的是基于conditionalGAN，把期望的反事实当做标签，来生成反事实样本。

perturb on instance

counterfactual explanation

counterfactual explanation by prototype

实际案例

基于因果推断（反事实样本）的模型可解释性方法已经被越来越多的应用于各个场景。接下来，我们看两个分别来自于自然语言处理和推荐系统场景的案例。
重复问题识别是问题搜索场景里的重要任务，图中的两个语句被识别为重复的问题。右侧的条形图是通过SHAP值计算出的单词重要性，可以看到“friend”这个单词的重要性没有排在前面。通过扰动Q2生成反事实样本，我们发现“How do I help a <woman> who is in depression?”被认为和Q1不是重复的问题。这表明，“friend”这个单词的（某种）变动会影响模型最终的判断，而这个依据没有被SHAP方法体现出来。同时，替换重要性排名较高的“depression”和居中的“help”，并没有翻转模型的判断结果，说明SHAP并不（一定）能反映出模型的判断依据，而反事实样本可以。

counterfactual explanation in QQP

在商品推荐的场景下同样存在反事实可解释性的需求，例如，当我们看到某个物品被作为top1 candidate推荐给用户时，我们可能想知道是哪些用户行为影响了这个结果，进而能否通过改变一些行为而改变推荐结果。图中，推荐系统在top1位置被推荐了一个背包。通过算法识别出的“最小可删除行为集合”（反事实中的最小扰动），可以看出“购买Adidas的登山靴，评论尼康相机为登山好伴侣以及给Intenso充电宝高分评价”让推荐系统决定了把狼爪的背包排在第一位（因为种种迹象表明Alice喜欢远足）。如果删除这些行为iPad Air的排名会变为top1。

counterfactual explanation in RS

在不同的场景下，因果可解释性方法仍然有可能受限于特定模型，并且存在一些时间复杂度的问题。此外，还有很多待解决的问题。后续会介绍一些具体的方法。

评价准则

下面简单介绍一下，如何评价基于因果机器学习可解释方法，以及对应的评价指标。不同的类别的解释方法有自己特有的评价准则。首先介绍一下，基于反事实的可解释性方法的评价准则。由于没有反事实的ground truth，所以无法直接检验反事实样本的好坏，因此通过启发式定义一些的指标，来确保生成的反事实符合预期，具有预期的性质。

扰动尽量小。由于反事实解释器是基于最小扰动的，因此扰动 $\delta$ 应该尽可能的少改动原始样本的特征，即改动特征数量要少。同时，改动的幅度尽可能的小。
常用的指标包括度量扰动 $L_1$ 和 $L_2$ 距离的 $EN(\delta) = \beta * \left \| \delta \right\|_{1} + \left \| \delta \right\|_{2}^{2}$ ，其中， $\delta$ 衡量的是反事实样本和原始样本特征的距离， $L_1$ 约束了改动特征要尽可能的少。
生成的反事实样本更贴近已有的反事实样本的分布。当生成的样本更符合训练数据上反事实结果的分布时，可以认为生成的样本更真实，而不是“伪造”的。
$IM1$ 通过分别在原始事实 $t_{0}$ 和目标事实 $t_{1}$ 上训练两个 $AE$ ，并衡量生成的反事实（这里的反事实指目标事实）样本在两个 $AE$ 上得到的重构损失的距离比值是否很小 $IM1(AE_{i}, AE_{t_{0}}, x_{cf}) = \frac{ \left \| x_{0} + \delta - AE_{i}(x_{0} + \delta) \right\|_{2}^{2} }{ \left \| x_{0} + \delta - AE_{t_{0}}(x_{0} + \delta) \right\|_{2}^{2} + \epsilon }$ 。 $IM1$ 越小的比值代表，相比于原始事实，反事实样本更接近于目标事实的分布（更不容易被察觉出来是奸细...）。
生成的反事实样本应该具有足够的多样性。多样的反事实样本，能保证反事实可解释方法的效率，不会重复的生成同样的样本，且从多个角度进行解释。
通过计算生成的反事实样本集中样本之间pairwise距离的均值可以衡量多样性。
$Diversity = \frac{1}{\left| C_{k} \right|^{2}} \sum\limits_{i=1}^{k-1} \sum\limits_{j=i+1}^{k} d(x_{cf_i}, x_{cf_j} )$ ，其中， $C_{k}$ 是反事实样本集合， $k$ 是集中元素的个数， $d$ 是度量反事实样本的距离，可以是针对连续特征可以是欧式距离，针对分类特征可以是汉明距离。

还有其他的一些面向模型可解释方法，以及公平性的评价指标，这些类方法的评价指标仍然是一个待攻克的课题，这里就不一一介绍了，感兴趣的同学可以参考引文。

引用文章

[1] J. Pearl. Theoretical impediments to machine learning with seven sparks from the causal revolution. CoRR, abs/1801.04016, 2018.
[2] Pearl, J., & Mackenzie, D. (2018). The book of why: the new science of cause and effect. Basic books.
[3] Cong Wang, Xiao-Hui Li, Han Gao, Shendi Wang, Luning Wang, Caleb Chen Cao, Lei Chen. Counterfactual Explanations in Explainable AI: A Tutorial. Tutorial on ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD 2021).
[4] D. Alvarez-Melis and T. Jaakkola. A causal framework for explaining the predictions of black-box sequence- to-sequence models. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pages 412–421, Copenhagen, Denmark, Sept. 2017. Association for Computational Linguistics.
[6] Wu, T., Ribeiro, M. T., Heer, J., & Weld, D. S. (2021). Polyjuice: Generating Counterfactuals for Explaining, Evaluating, and Improving Models. In Proceedings of the 80 59th Annual Meeting of the Association for Computational Linguistics.
[5] Ghazimatin, A., Balalau, O., Saha Roy, R., & Weikum, G. (2020, January). PRINCE: Provider-side interpretability with counterfactual explanations in recommender 88 systems. In Proceedings of the 13th International Conference on Web Search and Data Mining (pp. 196-204).