1、文献信息
Arjovsky M, Bottou L, Gulrajani I, et al. Invariant Risk Minimization[J]. arXiv: Machine Learning, 2019.
该文献为华为人工智能竞赛第一题的参考文献。
2、文献简介
本文引入了不变风险最小化的方法(IRM),作为一种学习范例,用于估计多个分布之间的不变相关性。为了实现这一目标,IRM学习了一种数据的表达,使得在这种数据表达之上的最优分类器可以匹配所有的训练分布。通过理论和实验,我们展示了IRM学习到的不变性如何与控制数据的因果结构相关联,并实现了分布外的泛化。
3、研究方法(IRM)
我们考虑数据集,该数据集来自不同环境。这些环境描述不同环境下测得的同一组随机变量。数据集来自环境e,包含一些独立同分布的样本,分布为。那么,我们的目标是使用这些多个数据集学习预测器,该模型可以很好的应用于相似环境。也即,我们要最小化下式:
其中是环境e中的风险值。这里包含了所有可能的实验条件,包括观测的和假设的。考虑下面这个结构模型:
通过预测,在环境e中,我们采用最小二乘预测,我们回归,得到和;回归,得到,;得到和。使用回归是我们的第一个不变相关性,也即该回归预测效果不依赖于环境e。相反,第二个和第三个回归的预测效果依赖环境的变化。这些变化的(虚假的)相关性不能很好的推广到测试环境中。但并不是所有的不变性都是我们所关心的,比如从空集特征到Y的回归是不变的,但却没有预测效果。
是唯一的在所有环境中不变的预测规则。进一步,该预测也是跨环境的对目标变量取值的因果解释。换句话说,这对目标变量随输入的变化提供了一种准确的描述。这是令人信服的,因为不变性是一个可检验的量,我们可以通过它发现因果关系。我们将在第4节详细讨论不变性和因果性的关系。但是首先,如何学习得到不变性,因果的回归?我们先回顾现有技术的一些局限性:
第一,我们可以直接使用所有的训练数据进行学习,使用所有特征来最小化训练误差。这就是传统的Empirical Risk Minimization(ERM)方法。在这个例子中,如果训练环境具有很大的,那么ERM方法将赋予一个很大的正系数,这就远离了不变性。
第二,我们可以最小化,一种鲁棒性的学习策略,其中是一个环境基准。设置这些基准为0就表明最小化在不同环境中的最大误差。选择这些基准是为了防止对嘈杂的环境为主导的优化。例如,我们可以选择,来最小化不同环境间的最大解释方差。虽然很有价值,但这就等同于鲁棒性的学习会最小化环境训练错误加权平均值。即选择最优的,使得最小化。但是对于混合训练环境具有很大的,会给赋予较大参数,但是测试环境可能具有较小的。
第三,我们可以采取一种自适应策略来估计在所有环境中具有相同分布的数据表达。这对于上述例子是不可能的,因为的分布在不同的环境中是不同的。这就说明了为什么技术匹配的特征分布优势会增加不变性的错误形式。
第四, 我们可以紧跟这种不变性因果预测技术。这些变量的子集用于回归每一个环境,在所有环境中都会产生相同的回归残差。匹配残差分布不适用于上述例子,因为Y的噪声随环境发生变化。
总之,对于这个简单的例子都很难找到不变的预测。为了解决这个问题,我们提出了IRM方法,这是一种学习范式,可以提取跨多个环境的非线性不变预测变量,从而实现OOD泛化。
3.1、不变风险最小化算法(IRM)
用统计学的话讲,我们的目标就是学习不同训练环境中不变的相关性。对于预测问题,这就意味这需要找到一种数据表达,使得在该数据表达之上的最佳分类器在不同的环境中都相同。可按如下定义方式:
定义3:考虑一种数据表达,如果有一个分类函数适用于所有环境,则可导出的跨环境的不变预测器,也即对于任意的,都有。
为什么上述定义等价于与目标变量的相关性稳定的学习特征?对于损失函数如均方误差和交叉熵,最优的分类器可以写为条件期望。一种数据表达可以产生的跨环境不变预测当且仅当对于的所有焦点h处,对于任意的,都有。
我们认为不变性的概念与科学中常用的归纳法是相抵触的。实际上,一些科学发现都可以追溯到发现一些不同的但潜在的相关现象,一旦用正确的变量描述,它们似乎遵循相同精确的物理定律。严格遵守这些规则表明它们在更广泛的条件下仍有效,如果牛顿的苹果和星球遵循相同方程,那么引力就是一件事。
为了从经验数据中发现这些不变性,我们引入了IRM方法,不仅具有好的预测结果,还是跨环境的不变预测器。从数学上,可转为为如下优化问题(IRM):
这是一个有挑战性的两级优化问题,我们将其转化为另一个版本(IRMv1):
其中是整个不变预测器,是一个标量和一个固定的虚拟分类器,梯度形式惩罚是用来衡量每个环境e中虚拟分类器的最优性,是预测能力(ERM)和预测不变性的平衡调节参数。
3.2 从IRM到IRMv1
3.2.1 将约束作为惩罚项
我们将(IRM)中的硬性约束转化为如下的惩罚性损失:
其中函数表示了使得达到最小化的程度,是平衡预测能力和不变性的超参数。在实际应用中,我们希望关于和是可微的。
3.2.2 对于线性分类器选择合适的惩罚项
下面我们考虑为线性分类器这一特殊情况。当给定数据表达,我们可以由写出:
且我们希望这两个线性分类器的差异越小越好,即。我们将该方法用到3.1中的实例中,令,,则c控制了这个数据表达多大程度上依赖。我们做出不变性损失随c的变化图见图1,发现在处是不连续的,而当c趋于0而不等于0时,利用最小二乘法计算的第二个量将趋于无穷,因此出现了图1中蓝线的情况。图1中黄线表明在最小二乘中添加强的正则化不能解决这一问题。
为了解决这些问题,我们将最小二乘求中的矩阵求逆去除,并按如下方式计算不变性损失:
按照这种方式,得到图1绿线所示的情况。可见是平滑的(它是和的多项式函数)。并且,当且仅当时,。
3.2.3 固定线性分类器
我们通过最小化选择出的是不唯一的,实际上对于可逆映射,我们可以重写不变预测器为:
这意味着我们可以任意选择非零作为不变预测器。因此,我们可以将搜索限制在给定的所有环境最优分类的数据表达上。即:
当时,对于线性,上式的解将趋于(IRM)的解。
3.2.4 固定分类器也可满足监视不变性
前文我们提出是一个有效的分类器选择,这种情况下只有一部分的数据起作用。我们通过给出线性不变预测器的完整特征来说明这个悖论。下面的理论中的矩阵,为数据特征函数,向量为最优分类器,为预测向量。
定理4:对于所有,令为损失函数。一个向量可以写为,其中对于所有环境e,使得同时达到最小,当且仅当对于所有环境e,。所以,任何线性不变预测器可以被分解为不同秩的线性表达。特别的,我们研究的情况,则有:
后文将证明,不管我们是否限制IRM搜索秩为1的,这种形式的分解将会引入高秩的数据表达矩阵,且是分布外泛化的关键。
3.2.5 推广到一般损失和多元输出
3.2.4通过加入不变性损失和均方误差得到最终的IRMv1模型,可以写出一般的风险方程,其中是一种可能的非线性数据表达。这种表达在任何损失下都最优匹配于常值分类器。如果返回的目标空间具有多个输出,我们将它们全部乘以标量分类器。
3.2.6 执行细节
当使用小批量梯度下降估计目标(IRMv1)时,可以得到平方估计范数的无偏估计:
其中和是环境e中的两个大小为b的随机小批量样本,为损失函数,PyTorch例子见附件D。
3.2.7 关于非线性不变w
假设不变最优分类器w是线性的有多严格?一种说法是只要给予足够灵活的数据表达,就可以将不变预测器写为。然而,强制执行线性不变性可能使得非不变预测惩罚等于0。例如,空数据表达允许任何w为最优值。但是,当时,这样产生的预测器不是不变的。ERM项会丢弃这种无效的预测器。通常,最小化ERM项将驱动以至于将在所有预测器中达到最优,尽管是线性的。
针对这个研究,我们也为未来的的研究提出了几个问题。是否存在不会被ERM和IRM丢弃的非不变预测器?如果将w放宽到可从非线性中选取将有什么好处?我们如何构造非线性不变量不变性的惩罚函数?
3.3 不变性,因果性和泛化
新提出的IRM方法使得在训练环境中具有更低的误差和不变特性。什么时候这些条件可以将不变性推广到所有环境中呢?更重要的时,什么时候这些条件可以使得在全部环境中具有更低的误差,并导致分布外的泛化呢?并且在一个更基础的水平,统计不变性和分布外的泛化如何与因果理论中的概念相关?
到目前为止,我们已经忽略了如何将不同环境应该与分布外的泛化相联系。这个问题的答案要追溯到因果理论。我们假设来自所有环境中的数据共享相同的基础结构方程模型。
定义5:控制生成向量的结构方程模型是一组结构方程:其中被称为的双亲,是独立于噪声的随机变量。如果,可记为“causes”。我们可以据此来绘制因果图,每个看作节点,如果,则就有从到的一条边。我们假设该图是无环的。
根据因果图的拓扑顺序,运行结构方程,我们可以从观测分布的得到一些样本。同样,我们还可以以不同的方式操纵(干预)一个唯一的SEM,以e为指标,来得到不同但相关的。
定义6:考虑一个。用干预e作用到上(包括替换一个或几个方程)以得到干预,结构方程为:,若或者,则变量是一种干预。
类似的,通过运行干预的结构方程,我们可以从干预分布中得到一些样本。例如我们可以考虑在例1中干预,控制它为趋于0的常数,因此将的结构方程替换为。每个干预e都产生了一个干预分布为的新环境e。有效的干预e不会损坏太多的目标变量Y的信息,从而形成了大环境。
先前的工作考虑的是有效的干预不会改变Y的结构方程,因为对方程的任意干预都不可能预测。在这个工作中,我们也允许改变Y的噪声,因为在真实问题中会出现变化的噪声水平,这些并不会影响最优的预测规则。我们将其形式化如下:
定义7:考虑一个控制随机向量,以及基于X预测Y的学习目标。那么,所有的环境集合由干预产生的所有干预分布得到。只要(i)因果图是无环的,(ii),(iii)保持有限方差,则该干预是有效的。
如果在定义中考虑环境特定的基线,条件(iii)可以去除,与哪些出现在鲁棒性学习目标相似。我们留下一些分布外泛化的其它量化作为以后的工作。
先前定义了因果性和不变性之间建立的基础联系。另外,可以证明一个预测是跨环境的不变预测,当且仅当它能达到最佳的,当且仅当它只使用Y的直接因果双亲来预测,也即,。本节的其它部分将根据这些思想去展示如何利用跨环境的不变性实现所有环境中的分布外的泛化。
3.3.1 IRM的一般理论
IRM的目的就是建立一种可以产生out-of-distribution的预测,也即,实现在整个环境中具有更低的误差。为此,IRM致力于在环境中同时减少误差以及保证不变性。这两者之间的桥梁由如下两步实现:第一步,可以证明环境中更低的误差和不变性将导致中更低的误差。这是因为,一旦估算出在环境中数据表达产生的不变预测,的误差将控制在标准误差界中。第二步,我们测试其余条件使得在环境中具有更低的误差,即在什么条件下,训练环境中的不变性意味着所有环境中的不变性?
对于线性IRM,我们回答这个问题的起点是不变因果预测理论(ICP)。这里,作者(书40)证明了只要数据(i)是高斯分布的,(ii)满足线性的SEM,(iii)从特定类型的干预中得到,那么ICP重获目标的不变性。定理9表明即使上述三个假设都不成立,IRM也能学到这种不变性。特别的,我们容许非高斯数据,将观测结果作为稳定和虚假相关性的变量的线性变换来处理。
定理的设定如下。有一个不变相关性变量,它是一个未观察的潜在变量,具有线性关系为,独立于。我们能观测到的是,它是和另一个与和任意相关的变量的干扰组合。简单的使用回归将不计后果的利用了(因为它给出了关于和额外的虚假的信息)。为了实现分布外的泛化,数据表达必须丢弃且保留。
在展示定理9之前,我们需要先做一些假设。为了学习有用的不变性,必须要求训练环境具有一定程度的多样性。一方面,从大数据集中随机抽取两个子集样本并不会导致环境的多样性,因为这两个子集服从相同的分布。另一方面,以任意变量为条件将大数据集分割可以产生多样性的环境,但是可能会引入虚假相关性且破坏我们需要的不变性。因此,我们需要包含足够多样性且满足基本不变性的训练环境。我们将这种多样性需求形式化为需要环境在linear general position。
假设8:训练环境在linear general position的程度为r,,,且对于所有的非零:
直观上,这种linear general position的假设限制了训练环境共线性的程度。每个处在linear general position的新环境都将其不变解空间减少一个自由度。幸运的是,理论10表明不满足一个linear general position的叉积集合为0。使用这种linear general position的假设,我们通过IRM学习的不变性可以从训练环境转化到全部环境。
下面这个定理表明,如果在中找到一个秩为r的数据表达导出的不变预测,且在linear general position的程度为r,那么将是整个环境中的不变预测。
定理9:假设,,这里,,在中取值,在中取值,且。假设的分量是可逆的:那么存在 使得。令的秩r>0。那么,至少训练环境在linear general position中的程度为r,我们有,对所有的成立,当且仅当导出的是所有环境中的不变量。
这个假设是线性的,中心误差,且噪声与因果变量是独立的,意味着不变性。在ICP中,我们允许在和非因果变量间的相关性,这导致ERM吸收了虚假相关性(在例1中,且)。
另外,我们的结果包含一些新颖之处。第一,我们并不假设数据是高斯分布的,这个存在的因果图或训练环境是由特定的干扰类型引发的。第二,结果可以扩展到“加扰设置”,即。这些情况中的因果关系没有定义观测特征,但是在IRM中需要对潜在变量进行恢复和过滤。第三,我们表明表达具有更高的秩就需要生成更少的训练环境。这是很好的,因为更高秩的表达将破坏更少的学习问题的信息。
我们以两个重要观测来结束本小节。第一,鲁棒性学习会在训练环境内得到概括,而IRM的不变性学习将获得向外推断能力。我们可以从例1观察到,使用两个训练环境,鲁棒性的学习在时表现很好,而IRM的学习对于所有都表现很好。最后,对于训练环境的协方差IRM是一个微分函数。因此,当数据近似服从一个不变模型,IRM应返回一个近似不变的解,对于轻度模型的错误具有鲁棒性。这与基于阈值系统的常见因果发现方法相反。
3.3.2 非线性情况中环境的数量
与线性情况相同,我们可以为IRM提供非线性机制的保障。也即,我们可以假设每个约束都会从可能的结果中移除一个自由度。那么,对于一个充分多的各种训练环境,我们可以得到不变预测器。不幸的是,我们不能说明这种“nonlinear general positon”假设,也不能证明它能在所有环境中都可用,因为定理10只是针对的线性情况。我们将其作为未来的工作。
一般的,定理9是消极的,因为它要求训练环境的数量与表达矩阵中参数的数量成线性比例关系。幸运的是,我们在实验中观察到,通常两个环境就可以充分恢复不变性了。我们相信这些问题中不能从两个不同的环境中完全匹配,除非提取的是因果不变性。在大的族中找不变性应该允许丢弃一些很少训练环境下的更多的不变性。总之,从很少的环境中学习到不变性,是朝着不变性理论迈进的很有前途的工作。
3.3.3 因果性是不变性
我们促进不变性作为因果性的主要特征。当然,我们不是这样做的先驱。为了预测一个干预的结果,我们依赖(i)我们干预的性质,(ii)在干预后这些性质假定不变。Pearl's在因果图上的do-calculus是一个框架,能告诉我们什么条件在干预后保持不变。Rubin's ignorability扮演同样的角色。它通常被描述为一种因果机制的自治,是一种特殊的干预后的不变性。大量的哲学著作研究了不变性和因果关系的联系,一些机器学习的作品中也提到了类似的工作。
因果关系的不变性观点超越了一些因果图处理的某些难题。例如,理想气体方程PV=nRT或牛顿万有引力方程很难使用结构方程模型描述,但在实验条件下是不变性的杰出例子。当收集气体或天体数据时,这些定理的普遍性将表现为不变的相关性,这将得到一种跨环境的有效预测,以及科学理论的概念。
另一个支持因果关系的不变性观点的动机是研究机器学习问题。例如,考虑图像分类任务。这里,观察到的变量是成百上千的像素。控制它们的因果图是什么?一个合理的假设是因果关系并不会发生在像素之间,而是发生在相机捕获的真实概念之间。在这些情况下,图片中的不变相关是真实世界中的因果关系的代理。为了发现这些不变相关,我们需要一些方法能够将观察到的像素分解为更接近因果机制的潜在变量,例如IRM。在少数情况下,我们对控制所有变量的完整因果图感兴趣。而是,我们关注的通常是因果不变性能够提升在新的分布样本中的泛化性。
3.4 实验
我们执行了两个实验来评估IRM在多个环境中的泛化性。源码地址为https://github.com/facebookresearch/InvariantRiskMinimization
3.4.1 合成数据
在第一个实验中,我们拓展了例1。首先,我们将输入特征的维度提升到了10维。第二,作为模型misspecification的一种形式,我们允许10维中隐藏混杂变量H。第三,在一些情况下,特征Z不能直接观测到,而是通过一种加密形式呈现。图2总结这个SEM产生所有环境e的数据的过程。更一般的,对于,我们考虑如下变化:
(1)为正交矩阵的加扰观测值;或的非加扰观测。
(2)完全观测图(F),其中;或部分观测图(P),是高斯分布。
(3)同方(O)Y噪声,其中且;或异方根(E)Y噪声,其中且。
这些变化将导致8种设置,例如“FOS”表示完全观测图,同方Y噪声,加干扰观测值。对于所有的变化,具有高斯输入。每个实验从三个训练环境各执行1000次。IRM遵循变化(IRMv1),且使用环境e=5去交叉不变正则项。我们比较ERM和ICP。
图3总结了我们实验的结果。对于每个预测规则,我们展示了两种指标。为此,我们考虑一个解密的版本来估计。首先,普通的条形图显示了和之间的均方误差。这种方法评估了这种预测变量恢复因果变量的权重的程度。第二,每个条纹条形反映了每个非因果变量权重的评估性能。我们希望这一项趋于0,因为这里的不变性预测为。总之,IRM可以评估出所有实验条件下的最准确因果变量,和非因果变量。在大多数情况下,IRM比 ERM方法精确几个数量级(纵坐标去了对数值)。IRM远远超过了之前的ICP方法。我们的实验也显示,ICP的保守行为使其倾向于拒绝大多数协变量作为直接原因,导致了因果权重上的一个较大误差以及非因果权重的较小误差。
3.4.2 Colored MNIST
我们使用源自MNIST的合成二进制分类任务来验证IRM在学习非线性不变预测变量上的有效性。其目标根据数字预测为每张图片分配二进制标签。MNIST图像时灰色的,我们以与标签强相关的方式(虚假)对每张图片图上红色或绿色。通过构造标签与颜色的关系比数字的关系更强,因此单纯的减低训练误差的任何算法都倾向于利用颜色。这种算法将在测试时失败,因为这种相关性在测试时相反。在两种训练环境中通过观察颜色和标签的强相关性,我们希望去减少颜色作为预测特征,从而导致更少的泛化。
我们定义了三种环境(两个训练,一个测试),将每个示例转换如下:第一,为张图片分配一个二进制标签,数字0-4分配,数字5-9分配;第二,以0.25的概率滑动得到最终的标签;第三,以概率滑动得到采样颜色id,其中第一个环境,第二个,测试环境中。最终当时将图片涂上红色,时涂上绿色。
我们使用不同的目标在C-MNIST数据集上训练MLPs。对于每个结果,我们报告十次运行的平均值和标准差。 由于ERM模型主要基于颜色进行分类,因此使用ERM进行的训练在训练环境中返回的模型具有较高的准确性,而在测试环境中则返回的概率较低。IRM在训练环境中表现较差,但没有依赖颜色信息,因此在测试环境中表现很好。构造的忽略颜色信息的语言机模型仅略好于IRM方法。
为了更好的理解这些模型的行为,我们利用一个事实,即是一维的且y是二进制的,在图5中我们在不同环境下画出h的函数图像。我们用单独的图显示每个算法,用单独的颜色显示环境。该图表明,无论考虑两个还是三个训练环境,IRM模型比ERM模型都更接近实现不变性。值得注意的是,IRM模型不能实现完美的不变性,特别是在的尾部。我们假设这是由于有限样本导致的,在尾部的样本量很少,估计(最小化)在训练环境间的微小不同是很困难的,尽管使用了这种方法。
我们注意到条件主导的适应技术可以跨环境匹配,原则上能够和IRM类似很好的解决这些任务。这是因为因果特征(数字形状)的分不分以及在所有环境中都是相同的。但是 ,不像IRM,如果数字分布在整个环境中发生改变,条件主导的适应技术将失败。进一步讨论见附件C。
最后,图5表明不能够总是表示为一种线性分类器。这里证明非线性不变性可能很有用。
4、主要结论
本文主要考虑提取模型中的不变特征来实现在所有环境中的泛化能力。基于该目标,本文提出了一种不变风险最小化的方法,可以有效的提取训练环境中的不变性特征,特别是对于线性模型,文中对这种不变性特征的推广可以应用到整个环境给出了理论证明,且在合成的数据中具有很好的效果。对于非线性的不变特征,本文的方法同样具有很好的效果,作者将IRM方法应用到C-MNIST数据集中,验证了模型的效果。
5、后续讨论
(1)可否假设的某种组成结构进一步发展,线性假设只是其中最简单的一种。