不变风险最小化(华为人工智能竞赛参考文献)

1、文献信息

Arjovsky M, Bottou L, Gulrajani I, et al. Invariant Risk Minimization[J]. arXiv: Machine Learning, 2019.

该文献为华为人工智能竞赛第一题的参考文献。

2、文献简介

本文引入了不变风险最小化的方法(IRM),作为一种学习范例,用于估计多个分布之间的不变相关性。为了实现这一目标,IRM学习了一种数据的表达,使得在这种数据表达之上的最优分类器可以匹配所有的训练分布。通过理论和实验,我们展示了IRM学习到的不变性如何与控制数据的因果结构相关联,并实现了分布外的泛化。

3、研究方法(IRM)

我们考虑数据集D_{e}:=\left\{\left(x_{i}^{e}, y_{i}^{e}\right)\right\}_{i=1}^{n_{e}},该数据集来自不同环境e \in \mathcal{E}_{\mathrm{tr}}。这些环境描述不同环境下测得的同一组随机变量。数据集D_{e}来自环境e,包含一些独立同分布的样本,分布为P\left(X^{e}, Y^{e}\right)。那么,我们的目标是使用这些多个数据集学习预测器Y \approx f(X),该模型可以很好的应用于相似环境\mathcal{E}_{\text {all }} \supset \mathcal{E}_{\mathrm{tr}}。也即,我们要最小化下式:

R^{\mathrm{OOD}}(f)=\max _{e \in \mathcal{E}_{\text {all }}} R^{e}(f)

其中R^{e}(f):=\mathbb{E}_{X^{a}, Y^{e}}\left[\ell\left(f\left(X^{e}\right), Y^{e}\right)\right]是环境e中的风险值。这里\mathcal{E}_{\text {all }}包含了所有可能的实验条件,包括观测的和假设的。考虑下面这个结构模型:

\begin{array}{c}X_{1} \leftarrow \operatorname{Gaussian}\left(0, \sigma^{2}\right) \\Y \leftarrow X_{1}+\operatorname{Gaussian}\left(0, \sigma^{2}\right) \\X_{2} \leftarrow Y+\operatorname{Gaussian}(0,1)\end{array}

通过\left(X_{1}, X_{2}\right)预测Y,在环境e中,我们采用最小二乘预测\hat{Y}^{e}=X_{1}^{e} \hat{\alpha}_{1}+X_{2}^{e} \hat{\alpha}_{2},我们回归X_{1}^{e},得到\hat{\alpha}_{1}=1 \hat{\alpha}_{2}=0;回归X_{2}^{e},得到\hat{\alpha}_{1}=0\hat{\alpha} _2 = \sigma (e)^2 /  (\sigma (e)^2 +1/2);得到\hat{\alpha} _1 = 1 /  (\sigma (e)^2 +1)\hat{\alpha} _2 = \sigma (e)^2 /  (\sigma (e)^2 +1)。使用X_1回归是我们的第一个不变相关性,也即该回归预测效果不依赖于环境e。相反,第二个和第三个回归的预测效果依赖环境的变化。这些变化的(虚假的)相关性不能很好的推广到测试环境中。但并不是所有的不变性都是我们所关心的,比如从空集特征到Y的回归是不变的,但却没有预测效果。

\hat{Y}=1\times X_{1}+0\times X_{2}是唯一的在所有环境\mathcal{E}_{\text {all }} 中不变的预测规则。进一步,该预测也是跨环境的对目标变量取值的因果解释。换句话说,这对目标变量随输入的变化提供了一种准确的描述。这是令人信服的,因为不变性是一个可检验的量,我们可以通过它发现因果关系。我们将在第4节详细讨论不变性和因果性的关系。但是首先,如何学习得到不变性,因果的回归?我们先回顾现有技术的一些局限性:

第一,我们可以直接使用所有的训练数据进行学习,使用所有特征来最小化训练误差。这就是传统的Empirical Risk Minimization(ERM)方法。在这个例子中,如果训练环境具有很大的\sigma ^2(e),那么ERM方法将赋予X_2一个很大的正系数,这就远离了不变性。

第二,我们可以最小化R^{rob}(f)=max_{e\in \varepsilon_{tr}}R^e(f)-r_e,一种鲁棒性的学习策略,其中r_e是一个环境基准。设置这些基准为0就表明最小化在不同环境中的最大误差。选择这些基准是为了防止对嘈杂的环境为主导的优化。例如,我们可以选择r_e = \mathbb{V}[Y^e],来最小化不同环境间的最大解释方差。虽然很有价值,但这就等同于鲁棒性的学习会最小化环境训练错误加权平均值。即选择最优的\lambda_e \ge 0,使得R^{rob}=\sum_{e\in \varepsilon_{tr}}\lambda_e R^e(f)最小化。但是对于混合训练环境具有很大的\sigma ^2(e),会给X_2赋予较大参数,但是测试环境可能具有较小的\sigma ^2(e)

第三,我们可以采取一种自适应策略来估计在所有环境中具有相同分布的数据表达\Phi \left(X_{1}, X_{2}\right)。这对于上述例子是不可能的,因为X_1的分布在不同的环境中是不同的。这就说明了为什么技术匹配的特征分布优势会增加不变性的错误形式。

第四, 我们可以紧跟这种不变性因果预测技术。这些变量的子集用于回归每一个环境,在所有环境中都会产生相同的回归残差。匹配残差分布不适用于上述例子,因为Y的噪声随环境发生变化。

总之,对于这个简单的例子都很难找到不变的预测。为了解决这个问题,我们提出了IRM方法,这是一种学习范式,可以提取跨多个环境的非线性不变预测变量,从而实现OOD泛化。

3.1、不变风险最小化算法(IRM)

用统计学的话讲,我们的目标就是学习不同训练环境中不变的相关性。对于预测问题,这就意味这需要找到一种数据表达,使得在该数据表达之上的最佳分类器在不同的环境中都相同。可按如下定义方式:

定义3:考虑一种数据表达\Phi: \mathcal{X} \rightarrow \mathcal{H},如果有一个分类函数w: \mathcal{H} \rightarrow \mathcal{Y}适用于所有环境,则可导出的跨环境\mathcal{E}的不变预测器\omega o \Phi,也即对于任意的e \in \mathcal{E},都有w \in \arg \min _{\bar{w}: \mathcal{H} \rightarrow \mathcal{Y}} R^{e}(\bar{w} \circ \Phi)

为什么上述定义等价于与目标变量的相关性稳定的学习特征?对于损失函数如均方误差和交叉熵,最优的分类器可以写为条件期望。一种数据表达\Phi可以产生的跨环境不变预测当且仅当对于\Phi(X^e)的所有焦点h处,对于任意的e,e\in  \varepsilon,都有\mathbb{E}\left[Y^{e} \mid \Phi\left(X^{e}\right)=h\right]=\mathbb{E}\left[Y^{e^{\prime}} \mid \Phi\left(X^{e^{\prime}}\right)=h\right]

我们认为不变性的概念与科学中常用的归纳法是相抵触的。实际上,一些科学发现都可以追溯到发现一些不同的但潜在的相关现象,一旦用正确的变量描述,它们似乎遵循相同精确的物理定律。严格遵守这些规则表明它们在更广泛的条件下仍有效,如果牛顿的苹果和星球遵循相同方程,那么引力就是一件事。

为了从经验数据中发现这些不变性,我们引入了IRM方法,不仅具有好的预测结果,还是跨环境\mathcal{E}_{\mathrm{tr}}的不变预测器。从数学上,可转为为如下优化问题(IRM):

\begin{array}{ll}\min _{\Phi: \mathcal{X} \rightarrow \mathcal{H} \atop w: \mathcal{H} \rightarrow \mathcal{Y}} & \sum_{e \in \mathcal{E}_{\mathrm{tr}}} R^{e}(w \circ \Phi) \\\text { subject to } & w \in \underset{\bar{w}: \mathcal{H} \rightarrow \mathcal{Y}}{\arg \min } R^{e}(\bar{w} \circ \Phi), \text { for all } e \in \mathcal{E}_{\mathrm{tr}}\end{array}

这是一个有挑战性的两级优化问题,我们将其转化为另一个版本(IRMv1):

\min _{\Phi: \mathcal{X} \rightarrow \mathcal{Y}} \sum_{e \in \mathcal{E}_{\mathrm{tr}}} R^{e}(\Phi)+\lambda \cdot\left\|\nabla_{w \mid w=1.0} R^{e}(w \cdot \Phi)\right\|^{2}

其中\Phi是整个不变预测器,\omega = 1.0是一个标量和一个固定的虚拟分类器,梯度形式惩罚是用来衡量每个环境e中虚拟分类器的最优性,\lambda\in [0,\infty)是预测能力(ERM)和预测1\cdot \Phi(x)不变性的平衡调节参数。

3.2 从IRM到IRMv1

3.2.1 将约束作为惩罚项

我们将(IRM)中的硬性约束转化为如下的惩罚性损失:

L_{\mathrm{IRM}}(\Phi, w)=\sum_{e \in \mathcal{E}_{\mathrm{tr}}} R^{e}(w \circ \Phi)+\lambda \cdot \mathbb{D}(w, \Phi, e)

其中函数\mathbb{D}(w, \Phi, e)表示了\omega使得R^{e}(w \circ \Phi)达到最小化的程度,\lambda是平衡预测能力和不变性的超参数。在实际应用中,我们希望\mathbb{D}(w, \Phi, e)关于\Phi\omega是可微的。

3.2.2 对于线性分类器\omega选择合适的惩罚项\mathbb{D}

下面我们考虑\omega为线性分类器这一特殊情况。当给定数据表达\Phi,我们可以由w_{\Phi}^{e} \in \arg \min _{\bar{w}} R^{e}(\bar{w} \circ \Phi)写出:

w_{\Phi}^{e}=\mathbb{E}_{X^{e}}\left[\Phi\left(X^{e}\right) \Phi\left(X^{e}\right)^{\top}\right]^{-1} \mathbb{E}_{X^{e}, Y^{e}}\left[\Phi\left(X^{e}\right) Y^{e}\right]

且我们希望这两个线性分类器的差异越小越好,即\mathbb{D}_{\text {dist }}(w, \Phi, e)=\left\|w-w_{\Phi}^{e}\right\|^{2}。我们将该方法用到3.1中的实例中,令\Phi (x)=x \cdot Diag([1,c])w=[1,0],则c控制了这个数据表达多大程度上依赖X_2。我们做出不变性损失随c的变化图见图1,发现\mathbb{D}_{\text {dist }}c=0处是不连续的,而当c趋于0而不等于0时,利用最小二乘法计算w_{\Phi}^{e}的第二个量将趋于无穷,因此出现了图1中蓝线的情况。图1中黄线表明在最小二乘中添加强的正则化不能解决这一问题。

图1:不同不变性方法下不变性损失随c的变化图像

为了解决这些问题,我们将最小二乘求w_{\Phi}^{e}中的矩阵求逆去除,并按如下方式计算不变性损失:

\mathbb{D}_{\operatorname{lin}}(w, \Phi, e)=\left\|\mathbb{E}_{X^{e}}\left[\Phi\left(X^{e}\right) \Phi\left(X^{e}\right)^{\top}\right] w-\mathbb{E}_{X^{o}, Y^{e}}\left[\Phi\left(X^{e}\right) Y^{e}\right]\right\|^{2}

按照这种方式,得到图1绿线所示的情况。可见\mathbb{D}_{\operatorname{lin}}是平滑的(它是\Phi\omega的多项式函数)。并且,当且仅当w_{\Phi}^{e} \in \arg \min _{\bar{w}} R^{e}(\bar{w} \circ \Phi)时,\mathbb{D}_{\operatorname{lin}}(w, \Phi, e)=0

3.2.3 固定线性分类器\omega

我们通过\mathbb{D}_{\operatorname{lin}}最小化选择出的(\Phi , \omega)是不唯一的,实际上对于可逆映射\Psi,我们可以重写不变预测器为:

w \circ \Phi=\underbrace{\left(w \circ \Psi^{-1}\right)}_{\tilde{w}} \circ \underbrace{(\Psi \circ \Phi)}_{\tilde{\Phi}}

这意味着我们可以任意选择非零\tilde{w}作为不变预测器。因此,我们可以将搜索限制在给定\tilde{w}的所有环境最优分类的数据表达上。即:

L_{\mathrm{IRM}, w=\bar{w}}(\Phi)=\sum_{e \in \mathcal{E}_{\mathrm{tr}}} R^{e}(\tilde{w} \circ \Phi)+\lambda \cdot \mathbb{D}_{\mathrm{lin}}(\tilde{w}, \Phi, e)

\lambda \to \infty时,对于线性\tilde{\omega},上式的解\left(\Phi_{\lambda}^{*}, \tilde{w}\right)将趋于(IRM)的解\left(\Phi^{*}, \tilde{w}\right)

3.2.4 固定分类器\tilde{\omega}也可满足监视不变性

前文我们提出\tilde{w}=(1,0, \ldots, 0)是一个有效的分类器选择,这种情况下只有一部分的数据起作用。我们通过给出线性不变预测器的完整特征来说明这个悖论。下面的理论中的矩阵\Phi \in \mathbb{R}^{p \times d},为数据特征函数,向量w \in \mathbb{R}^{p}为最优分类器,v=\Phi^{\top} w为预测向量w \circ \Phi

定理4:对于所有e \in \mathcal{E},令R^{e}: \mathbb{R}^{d} \rightarrow \mathbb{R}为损失函数。一个向量v \in \mathbb{R}^{d}可以写为v=\Phi^{\top} w,其中\omega对于所有环境e,使得R^{e}(w \circ \Phi)同时达到最小,当且仅当对于所有环境e,v^{\top} \nabla R^{e}(v)=0。所以,任何线性不变预测器可以被分解为不同秩的线性表达。特别的,我们研究p=1的情况,则有:

L_{\mathrm{IRM}, w=1.0}\left(\Phi^{\top}\right)=\sum_{e \in \mathcal{E}_{\mathrm{tr}}} R^{e}\left(\Phi^{\top}\right)+\lambda \cdot \mathbb{D}_{\operatorname{lin}}\left(1.0, \Phi^{\top}, e\right)

后文将证明,不管我们是否限制IRM搜索秩为1的\Phi ^\top,这种形式的分解将会引入高秩的数据表达矩阵,且是分布外泛化的关键。

3.2.5 推广到一般损失和多元输出

3.2.4通过加入不变性损失和均方误差得到最终的IRMv1模型,可以写出一般的风险方程\mathbb{D}(1.0, \Phi, e)=\left\|\nabla_{w \mid w=1.0} R^{e}(w \cdot \Phi)\right\|^{2},其中\Phi是一种可能的非线性数据表达。这种表达在任何损失下都最优匹配于常值分类器\omega = 1.0。如果\Phi返回的目标空间\mathcal{Y}具有多个输出,我们将它们全部乘以标量分类器\omega = 1.0

3.2.6 执行细节

当使用小批量梯度下降估计目标(IRMv1)时,可以得到平方估计范数的无偏估计:

\sum_{k=1}^{b}\left[\nabla_{w \mid w=1.0} \ell\left(w \cdot \Phi\left(X_{k}^{e, i}\right), Y_{k}^{e, i}\right) \cdot \nabla_{w \mid w=1.0} \ell\left(w \cdot \Phi\left(X_{k}^{e, j}\right), Y_{k}^{e, j}\right)\right]

其中(X^{e,i},Y^{e,i})(X^{e,j},Y^{e,j})是环境e中的两个大小为b的随机小批量样本,\ell为损失函数,PyTorch例子见附件D。

3.2.7 关于非线性不变w

假设不变最优分类器w是线性的有多严格?一种说法是只要给予足够灵活的数据表达\Phi,就可以将不变预测器写为1.0 \cdot \Phi。然而,强制执行线性不变性可能使得非不变预测惩罚\mathbb{D}_{\mathrm{lin}}等于0。例如,空数据表达\Phi_0(X^e)=0允许任何w为最优值。但是,当\mathbb{E}[Y^e]\ne 0时,这样产生的预测器\omega \circ \Phi不是不变的。ERM项会丢弃这种无效的预测器。通常,最小化ERM项R^e(\tilde{w}\circ\Phi)将驱动\Phi以至于将\tilde{w}在所有预测器中达到最优,尽管\tilde{w}是线性的。

针对这个研究,我们也为未来的的研究提出了几个问题。是否存在不会被ERM和IRM丢弃的非不变预测器?如果将w放宽到可从非线性中选取将有什么好处?我们如何构造非线性不变量不变性的惩罚函数\mathbb{D}?

3.3 不变性,因果性和泛化

新提出的IRM方法使得在训练环境\varepsilon_{tr}中具有更低的误差和不变特性。什么时候这些条件可以将不变性推广到所有环境中呢?更重要的时,什么时候这些条件可以使得在全部环境\varepsilon_{all}中具有更低的误差,并导致分布外的泛化呢?并且在一个更基础的水平,统计不变性和分布外的泛化如何与因果理论中的概念相关?

到目前为止,我们已经忽略了如何将不同环境应该与分布外的泛化相联系。这个问题的答案要追溯到因果理论。我们假设来自所有环境中的数据共享相同的基础结构方程模型。

定义5:控制生成向量X=\left(X_{1}, \ldots, X_{d}\right)的结构方程模型\mathcal{C}:=(\mathcal{S}, N)是一组结构方程:\mathcal{S}_{i}: X_{i} \leftarrow f_{i}\left(\operatorname{Pa}\left(X_{i}\right), N_{i}\right)其中\mathrm{Pa}\left(X_{i}\right) \subseteq\left\{X_{1}, \ldots, X_{d}\right\} \backslash\left\{X_{i}\right\}被称为X_i的双亲,N_i是独立于噪声的随机变量。如果X_i\in Pa(X_j),可记为“X_icausesX_j”。我们可以据此来绘制因果图,每个X_i看作节点,如果X_i\in Pa(X_j),则就有从X_iX_j的一条边。我们假设该图是无环的。

根据因果图的拓扑顺序,运行结构方程(SEM) \mathcal{C},我们可以从观测分布P(X)的得到一些样本。同样,我们还可以以不同的方式操纵(干预)一个唯一的SEM,以e为指标,来得到不同但相关的SEMs\mathcal{C}^e

定义6:考虑一个SEM\mathcal{C}=(S,N)。用干预e作用到\mathcal{C}上(包括替换一个或几个方程)以得到干预SEM\mathcal{C}^e=(S^e,N^e),结构方程为:S_i^e:X_i^e\gets f_i^e(P_a^e(X_i^e),N_i^e),若S_i\ne S_i^e或者N_i \ne N_i^e,则变量X^e是一种干预。

类似的,通过运行干预SEM\mathcal{C}^e的结构方程,我们可以从干预分布P(X^e)中得到一些样本。例如我们可以考虑在例1中干预X_2,控制它为趋于0的常数,因此将X_2的结构方程替换为X_2^e\gets 0。每个干预e都产生了一个干预分布为P(X^e,Y^e)的新环境e。有效的干预e不会损坏太多的目标变量Y的信息,从而形成了大环境\varepsilon_{all}

先前的工作考虑的是有效的干预不会改变Y的结构方程,因为对方程的任意干预都不可能预测。在这个工作中,我们也允许改变Y的噪声,因为在真实问题中会出现变化的噪声水平,这些并不会影响最优的预测规则。我们将其形式化如下:

定义7:考虑一个SEM\mathcal{C}控制随机向量(X_1,...,X_d,Y),以及基于X预测Y的学习目标。那么,所有的环境集合\varepsilon_{all}(\mathcal{C})由干预产生的所有干预分布P(X^e,Y^e)得到。只要(i)因果图是无环的,(ii)\mathbb{E}\left[Y^{e} \mid \mathrm{Pa}(Y)\right]=\mathbb{E}[Y \mid \mathrm{Pa}(Y)],(iii)\mathbb{V}\left[Y^{e} \mid \operatorname{Pa}(Y)\right]保持有限方差,则该干预e\in \varepsilon_{all}(\mathcal{C})是有效的。

如果在定义R^{OOD}中考虑环境特定的基线,条件(iii)可以去除,与哪些出现在鲁棒性学习目标R^{rob}相似。我们留下一些分布外泛化的其它量化作为以后的工作。

先前定义了因果性和不变性之间建立的基础联系。另外,可以证明一个预测v:\mathcal{X}\to \mathcal{Y}是跨环境\varepsilon_{all}(\mathcal{C})的不变预测,当且仅当它能达到最佳的R^{OOD},当且仅当它只使用Y的直接因果双亲来预测,也即,v(x)=\mathbb{E}_{N_{Y}}\left[f_{Y}\left(\mathrm{Pa}(Y), N_{Y}\right)\right]。本节的其它部分将根据这些思想去展示如何利用跨环境的不变性实现所有环境中的分布外的泛化。

3.3.1 IRM的一般理论

IRM的目的就是建立一种可以产生out-of-distribution的预测,也即,实现在整个环境\varepsilon _{all}中具有更低的误差。为此,IRM致力于在环境\varepsilon_{tr}中同时减少误差以及保证不变性。这两者之间的桥梁由如下两步实现:第一步,可以证明\varepsilon_{tr}环境中更低的误差和不变性将导致\varepsilon _{all}中更低的误差。这是因为,一旦估算出在环境\varepsilon_{all}中数据表达\Phi产生的不变预测w \circ \Phiw \circ \Phi的误差将控制在标准误差界中。第二步,我们测试其余条件使得在环境\varepsilon_{all}中具有更低的误差,即在什么条件下,训练环境\varepsilon_{tr}中的不变性意味着所有环境\varepsilon_{all}中的不变性?

对于线性IRM,我们回答这个问题的起点是不变因果预测理论(ICP)。这里,作者(书40)证明了只要数据(i)是高斯分布的,(ii)满足线性的SEM,(iii)从特定类型的干预中得到,那么ICP重获目标的不变性。定理9表明即使上述三个假设都不成立,IRM也能学到这种不变性。特别的,我们容许非高斯数据,将观测结果作为稳定和虚假相关性的变量的线性变换来处理。

定理的设定如下。Y^e有一个不变相关性变量Z_1^e,它是一个未观察的潜在变量,具有线性关系为Y^e=Z_1^e\cdot  \gamma+\epsilon^e\epsilon^e独立于Z_1^e。我们能观测到的是X^e,它是Z^e_1和另一个与Z^e_1\epsilon^e任意相关的变量Z^e_2的干扰组合。简单的使用X^e回归将不计后果的利用了Z_2^e(因为它给出了关于\epsilon^eY^e额外的虚假的信息)。为了实现分布外的泛化,数据表达必须丢弃Z_2^e且保留Z_1^e

在展示定理9之前,我们需要先做一些假设。为了学习有用的不变性,必须要求训练环境具有一定程度的多样性。一方面,从大数据集中随机抽取两个子集样本并不会导致环境的多样性,因为这两个子集服从相同的分布。另一方面,以任意变量为条件将大数据集分割可以产生多样性的环境,但是可能会引入虚假相关性且破坏我们需要的不变性。因此,我们需要包含足够多样性且满足基本不变性的训练环境。我们将这种多样性需求形式化为需要环境在linear general position。

假设8:训练环境\varepsilon_{tr}在linear general position的程度为r,|\varepsilon_{tr}|>d-r+d/rr\in \mathbb{N},且对于所有的非零x\in \mathbb{R}^d:

\operatorname{dim}\left(\operatorname{span}\left(\left\{\mathbb{E}_{X^{e}}\left[X^{e} X^{e \top}\right] x-\mathbb{E}_{X^{e}, \epsilon^{e}}\left[X^{e} \epsilon^{e}\right]\right\}_{e \in \mathcal{E}_{t r}}\right)\right)>d-r

直观上,这种linear general position的假设限制了训练环境共线性的程度。每个处在linear general position的新环境都将其不变解空间减少一个自由度。幸运的是,理论10表明不满足一个linear general position的叉积E_{X^e}[X^e {X^e}^\top]集合为0。使用这种linear general position的假设,我们通过IRM学习的不变性可以从训练环境转化到全部环境。

下面这个定理表明,如果在\varepsilon_{tr}中找到一个秩为r的数据表达\Phi导出的不变预测\omega \circ \Phi,且\varepsilon_{tr}在linear general position的程度为r,那么\omega \circ \Phi将是整个环境\varepsilon_{all}中的不变预测。

定理9:假设\begin{array}{l}Y^{e}=Z_{1}^{e} \cdot \gamma+\epsilon^{e}, \quad Z_{1}^{e} \perp \epsilon^{e}, \quad \mathbb{E}\left[\epsilon^{e}\right]=0 \end{array}X^{e}=S\left(Z_{1}^{e}, Z_{2}^{e}\right),这里,\gamma \in \mathbb{R}^cZ_1^e\mathbb{R}^c中取值,Z_2^e\mathbb{R}^q中取值,且S\in \mathbb{R}^{d\times (c+q)}。假设SZ_1分量是可逆的:那么存在\tilde{S}\in\mathbb{R}^{c\times d} 使得\tilde{S}(S(z_1,z_2))=z_1。令\Phi\in \mathbb{R}^{d\times d}的秩r>0。那么,至少d-r+d/r训练环境在linear general position中的程度为r,我们有\Phi \mathbb{E}_{X^{e}}\left[X^{e} X^{e^{\top}}\right] \Phi^{\top} w=\Phi \mathbb{E}_{X^{e}, Y^{e}}\left[X^{e} Y^{e}\right],对所有的e\in \varepsilon_{tr}成立,当且仅当\Phi导出的\Phi^{\top}\omega是所有环境中的不变量。

这个假设是线性的,中心误差,且噪声\epsilon^e与因果变量Z_1是独立的,意味着不变性\mathbb{E}[Y^e|Z_1^e=z_1]=z_1\cdot \gamma。在ICP中,我们允许在\epsilon ^e和非因果变量Z_2^e间的相关性,这导致ERM吸收了虚假相关性(在例1中,S=IZ_2^e=X_2^e)。

另外,我们的结果包含一些新颖之处。第一,我们并不假设数据是高斯分布的,这个存在的因果图或训练环境是由特定的干扰类型引发的。第二,结果可以扩展到“加扰设置”,即S\ne I。这些情况中的因果关系没有定义观测特征X,但是在IRM中需要对潜在变量(Z_1,Z_2)进行恢复和过滤。第三,我们表明表达\Phi具有更高的秩就需要生成更少的训练环境。这是很好的,因为更高秩的表达将破坏更少的学习问题的信息。

我们以两个重要观测来结束本小节。第一,鲁棒性学习会在训练环境内得到概括,而IRM的不变性学习将获得向外推断能力。我们可以从例1观察到,使用两个训练环境,鲁棒性的学习在\sigma\in [10,20]时表现很好,而IRM的学习对于所有\sigma都表现很好。最后,对于训练环境的协方差IRM是一个微分函数。因此,当数据近似服从一个不变模型,IRM应返回一个近似不变的解,对于轻度模型的错误具有鲁棒性。这与基于阈值系统的常见因果发现方法相反。

3.3.2 非线性情况中环境的数量

与线性情况相同,我们可以为IRM提供非线性机制的保障。也即,我们可以假设每个约束\left\|\nabla_{w \mid w=1.0} R^{e}(w \cdot \Phi)\right\|=0都会从可能的结果\Phi中移除一个自由度。那么,对于一个充分多的各种训练环境,我们可以得到不变预测器。不幸的是,我们不能说明这种“nonlinear general positon”假设,也不能证明它能在所有环境中都可用,因为定理10只是针对的线性情况。我们将其作为未来的工作。

一般的,定理9是消极的,因为它要求训练环境的数量与表达矩阵\Phi中参数的数量成线性比例关系。幸运的是,我们在实验中观察到,通常两个环境就可以充分恢复不变性了。我们相信这些问题中\mathbb{E}[Y^e|\Phi(X^e)]不能从两个不同的环境e\ne e’中完全匹配,除非\Phi提取的是因果不变性。在大的\omega族中找\omega不变性应该允许丢弃一些很少训练环境下的更多的不变性。总之,从很少的环境中学习到不变性,是朝着不变性理论迈进的很有前途的工作。

3.3.3 因果性是不变性

我们促进不变性作为因果性的主要特征。当然,我们不是这样做的先驱。为了预测一个干预的结果,我们依赖(i)我们干预的性质,(ii)在干预后这些性质假定不变。Pearl's在因果图上的do-calculus是一个框架,能告诉我们什么条件在干预后保持不变。Rubin's ignorability扮演同样的角色。它通常被描述为一种因果机制的自治,是一种特殊的干预后的不变性。大量的哲学著作研究了不变性和因果关系的联系,一些机器学习的作品中也提到了类似的工作。

因果关系的不变性观点超越了一些因果图处理的某些难题。例如,理想气体方程PV=nRT或牛顿万有引力方程很难使用结构方程模型描述,但在实验条件下是不变性的杰出例子。当收集气体或天体数据时,这些定理的普遍性将表现为不变的相关性,这将得到一种跨环境的有效预测,以及科学理论的概念。

另一个支持因果关系的不变性观点的动机是研究机器学习问题。例如,考虑图像分类任务。这里,观察到的变量是成百上千的像素。控制它们的因果图是什么?一个合理的假设是因果关系并不会发生在像素之间,而是发生在相机捕获的真实概念之间。在这些情况下,图片中的不变相关是真实世界中的因果关系的代理。为了发现这些不变相关,我们需要一些方法能够将观察到的像素分解为更接近因果机制的潜在变量,例如IRM。在少数情况下,我们对控制所有变量的完整因果图感兴趣。而是,我们关注的通常是因果不变性能够提升在新的分布样本中的泛化性。

3.4 实验

我们执行了两个实验来评估IRM在多个环境中的泛化性。源码地址为https://github.com/facebookresearch/InvariantRiskMinimization

3.4.1 合成数据

在第一个实验中,我们拓展了例1。首先,我们将输入特征X=(X_1,X_2)的维度提升到了10维。第二,作为模型misspecification的一种形式,我们允许10维中隐藏混杂变量H。第三,在一些情况下,特征Z不能直接观测到,而是通过一种加密形式X=S(Z)呈现。图2总结这个SEM产生所有环境e的数据(X^e,Y^e)的过程。更一般的,对于e\in \mathbb{R},我们考虑如下变化:

图2:在合成数据实验中,任务是通过X^e=S(Z_1^e,Z_2^e)预测Y^e

(1)S为正交矩阵的加扰观测值;或S=I的非加扰观测。

(2)完全观测图(F),其中W_{h \rightarrow 1}=W_{h \rightarrow y}=W_{h \rightarrow 2}=0;或部分观测图(P),W_{h \rightarrow 1},W_{h \rightarrow y},W_{h \rightarrow 2}是高斯分布。

(3)同方(O)Y噪声,其中\sigma_y^2=e^2\sigma_2^2=1;或异方根(E)Y噪声,其中\sigma_y^2=1\sigma_2^2=e^2

这些变化将导致8种设置,例如“FOS”表示完全观测图,同方Y噪声,加干扰观测值。对于所有的变化,(W_{1\to y},W_{2\to y})具有高斯输入。每个实验从三个训练环境\varepsilon_{tr}=\{0.2,2,5\}各执行1000次。IRM遵循变化(IRMv1),且使用环境e=5去交叉不变正则项\lambda。我们比较ERM和ICP。

图3:合成实验中因果(纯色条)和非因果(带条纹条)权重的平均误差 

图3总结了我们实验的结果。对于每个预测规则\hat{Y}=X_{1} \cdot \hat{W}_{1 \rightarrow y}+X_{2} \cdot \hat{W}_{y \rightarrow 2},我们展示了两种指标。为此,我们考虑一个解密的版本来估计\left(\hat{M}_{1 \rightarrow y}, \hat{M}_{y \rightarrow 2}\right)=\left(\hat{W}_{1 \rightarrow y}, \hat{W}_{y \rightarrow 2}\right)^{\top} S^{\top}。首先,普通的条形图显示了\hat{M}_{1\to y}W_{1\to y}之间的均方误差。这种方法评估了这种预测变量恢复因果变量的权重的程度。第二,每个条纹条形反映了每个非因果变量\hat{M}_{y\to 2}权重的评估性能。我们希望这一项趋于0,因为这里的不变性预测为\hat{Y}^{e}=\left(W_{1 \rightarrow y}, 0\right)^{\top} S^{\top}\left(X_{1}^{e}, X_{2}^{e}\right)。总之,IRM可以评估出所有实验条件下的最准确因果变量,和非因果变量。在大多数情况下,IRM比 ERM方法精确几个数量级(纵坐标去了对数值)。IRM远远超过了之前的ICP方法。我们的实验也显示,ICP的保守行为使其倾向于拒绝大多数协变量作为直接原因,导致了因果权重上的一个较大误差以及非因果权重的较小误差。

3.4.2 Colored MNIST

我们使用源自MNIST的合成二进制分类任务来验证IRM在学习非线性不变预测变量上的有效性。其目标根据数字预测为每张图片分配二进制标签。MNIST图像时灰色的,我们以与标签强相关的方式(虚假)对每张图片图上红色或绿色。通过构造标签与颜色的关系比数字的关系更强,因此单纯的减低训练误差的任何算法都倾向于利用颜色。这种算法将在测试时失败,因为这种相关性在测试时相反。在两种训练环境中通过观察颜色和标签的强相关性,我们希望去减少颜色作为预测特征,从而导致更少的泛化。

我们定义了三种环境(两个训练,一个测试),将每个示例转换如下:第一,为张图片分配一个二进制标签\tilde{y},数字0-4分配\tilde{y}=0,数字5-9分配\tilde{y}=1;第二,以0.25的概率滑动\tilde{y}得到最终的标签y;第三,以概率p^e滑动y得到采样颜色idz,其中第一个环境p^e=0.2,第二个p^e=0.1,测试环境中p^e=0.9。最终当z=1时将图片涂上红色,z=0时涂上绿色。

我们使用不同的目标在C-MNIST数据集上训练MLPs。对于每个结果,我们报告十次运行的平均值和标准差。 由于ERM模型主要基于颜色进行分类,因此使用ERM进行的训练在训练环境中返回的模型具有较高的准确性,而在测试环境中则返回的概率较低。IRM在训练环境中表现较差,但没有依赖颜色信息,因此在测试环境中表现很好。构造的忽略颜色信息的语言机模型仅略好于IRM方法。

图4:不同方法在C-MNIST数据集不同环境中的识别准确性

为了更好的理解这些模型的行为,我们利用一个事实,即h=\Phi(x)是一维的且y是二进制的,在图5中我们在不同环境下画出h的函数图像P(y=1|h,e)。我们用单独的图显示每个算法,用单独的颜色显示环境。该图表明,无论考虑两个还是三个训练环境,IRM模型比ERM模型都更接近实现不变性。值得注意的是,IRM模型不能实现完美的不变性,特别是在P(h)的尾部。我们假设这是由于有限样本导致的,在尾部的样本量很少,估计(最小化)P(y|h,e)在训练环境间的微小不同是很困难的,尽管使用了这种方法。

图5:不同环境和模型下P(y=1|h,e)的函数图像

我们注意到条件主导的适应技术可以跨环境匹配P(y=1|h,e),原则上能够和IRM类似很好的解决这些任务。这是因为因果特征(数字形状)的分不分以及P(y|e)在所有环境中都是相同的。但是 ,不像IRM,如果数字分布在整个环境中发生改变,条件主导的适应技术将失败。进一步讨论见附件C。

最后,图5表明P(y=1|h)不能够总是表示为一种线性分类器\omega。这里证明非线性不变性可能很有用。

4、主要结论

本文主要考虑提取模型中的不变特征来实现在所有环境中的泛化能力。基于该目标,本文提出了一种不变风险最小化的方法,可以有效的提取训练环境中的不变性特征,特别是对于线性模型,文中对这种不变性特征的推广可以应用到整个环境给出了理论证明,且在合成的数据中具有很好的效果。对于非线性的不变特征,本文的方法同样具有很好的效果,作者将IRM方法应用到C-MNIST数据集中,验证了模型的效果。

5、后续讨论

(1)可否假设\omega的某种组成结构进一步发展,线性假设只是其中最简单的一种。







最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 210,914评论 6 490
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 89,935评论 2 383
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,531评论 0 345
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,309评论 1 282
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,381评论 5 384
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,730评论 1 289
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,882评论 3 404
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,643评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,095评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,448评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,566评论 1 339
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,253评论 4 328
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,829评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,715评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,945评论 1 264
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,248评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,440评论 2 348