Mixup:Beyond Empirical Risk Minimization

——数据增强方法

——https://github.com/hongyi-zhang/mixup

动机:

机器学习的目标就是根据训练样本,寻找一个最优的函数,是的函数对输入X的估计Y'与实际输出Y之间的期望风险(误差)最小化。利用已知的经验数据(训练样本)来计算得到的误差,称之为经验风险。经验风险是模型关于训练样本集的平均损失。 经验风险最小化(Empirical Risk Minimization,ERM)的策略认为,经验风险最小的模型是最优的模型。

当样本容量足够大时,经验风险最小化能保证有很好的学习效果,在现实中被广泛采用。例如,极大似然估计(MLE)就是经验风险最小化的一个例子。当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等于极大似然估计。 但是,当样本容量很小时,经验风险最小化学习的效果就未必很好,会产生过拟合现象。研究证明模型体量固定,数据量足够,即可保证使用ERM时训练的收敛性,但是如今网络体量都很大,模型参数量远远超过训练集样本容量,这就造成:网络倾向于记忆训练数据,而不是进行泛化;难以抵御分布外的对抗样本

解决这一问题的一个途径就是使用邻域风险最小化原则(Vicinal Risk Minimization,VRM),即通过先验知识构造训练样本在训练集分布上的邻域值。通常做法就是传统的数据扩充,如翻转,旋转,放缩等。但是这种做法过于依赖特定数据集,此外需要人类的专门先验知识,此外,数据增强假定邻域内样本都是同一类,且没有对不同类不同样本之间邻域关系进行建模 。本文的贡献是提出一种新的数据扩展方式,即使用线性插值的方法得到新的扩展数据。本质上,mixup在成对样本及其标签的凸组合(convex combinations)上训练神经网络。作者分别在ImageNet-2012、CIFAR-10、CIFAR-100等数据集上进行试验,研究结果表明,mixup可以改进当前最先进的神经网络架构的泛化能力。mixup能够减少对错误标签的记忆,增加对抗样本的鲁棒性,并能够稳定对生成对抗网络的训练过程。

Mixup构建了虚拟的训练样本,假设(x_{i},y_{i}),(x_{j},y_{j})是两个随机抽取的样本,构建的样本为\tilde{x} =\lambda x_{i}+(1-\lambda ) x_{j}\tilde{y} =\lambda y_{i}+(1-\lambda ) y_{j}\lambda =1,其中x_{i},x_{j}代表原始输入向量,y_{i},y_{j}代表one-hot标签编码


从ERM到Mixup的数学原理:

在监督学习中,旨在寻找一个函数f\in F描述一个任意的特征向量X与目标向量Y之间的关系,X,Y服从联合分布P(X,Y),因此,定义损失函数l来度量f(x)与实际目标y之间的差别。对于样本-标签对(x,y)~P(X,Y),最小化数据分布P上的平均损失,即期望风险:

                                    R(f)=\int_{}^{} l(f(x),y)dP(X,Y)

但是,实际中分布P通常是未知的,因此我们通常构建一个训练集D={(x_{i},y_{i})}_{i=1}^n,对于所有样本,均服从分布P,因此可以通过经验分布估计分布PP_{\delta } (x,y)=\frac{1}{n} \sum_{i=1}^n\delta (x=x_{i},y=y_{i}  ),其中\delta 狄拉克函数(定义域上积分为1),因此以经验风险估计期望风险:

                           R_{\delta } (f)=\int_{}^{} l(f(x),y)dP_{\delta } (x,y)=\frac{1}{n} \sum_{i=1}^nl(f(x_{i} ,y_{i}))

ERM仅仅在定义好的训练集上进行优化,但是当函数参数量不断增大时,最小化经验风险的训练趋向于记忆训练数据。

代码表示:

代码表示

其中\lambda 服从\beta (\alpha ,\alpha )分布。f(x;\alpha ,\beta)=\frac{\Gamma (\alpha +\beta )}{\Gamma (\alpha )\Gamma (\beta )} x^{\alpha -1} (1-x)^{\beta -1}.

mixup的影响

其中,绿色代表类别0,橙色代表类别1。蓝色代表条件概率P(y=1|x)

但是根据经验分布来估计分布P不是唯一的选择,在邻域风险最小化(VRM)理论中,分布P 由邻域分布估计给出:P_{v} =\frac{1}{n} \sum_{i=1}^nv(\tilde{x_{i}} ,\tilde{y_{i}}|x_{i} ,y_{i} ) ,其中v代表邻域分布,用于度量在实际样本对(x_{i} ,y_{i} )的领域内找到虚拟样本对(\tilde{x_{i} } ,\tilde{y_{i} })的概率,具体地,考虑高斯邻域,v(\tilde{x} ,\tilde{y} |x_{i},y_{i} )=N(\tilde{x} -x_{i},\sigma^2 )\delta (\tilde{y}=y_{i} ),等价于以加性高斯噪声进行数据扩充,为了学习邻域最小化,通过采样邻域分布来得到数据集D_{v}:={[\tilde{x} _{i} ,\tilde{y} _{i}]}^m_{i=1}  ,然后最小化经验邻域风险R_{v}(f)=\frac{1}{m} \sum_{i=1}^ml(f(\tilde{x} _{i} ,\tilde{y} _{i} )) ,本文的贡献在于提出一种通用邻域分布,称之为mixup:

\mu(\tilde{x} ,\tilde{y} |x_{i},y_{i} )=\frac{1}{n}\sum_{j}^n  E_{\lambda } [\delta (\tilde{x} =\lambda \cdot x_{i} +(1-\lambda )\cdot x_{j} ,\tilde{y}=\lambda \cdot y_{i} +(1-\lambda ) \cdot y_{j} )]

\lambda服从分布 \beta (\alpha ,\alpha )\alpha 属于0到正无穷,\tilde{x} =\lambda x_{i}+(1-\lambda ) x_{j}\tilde{y} =\lambda y_{i}+(1-\lambda ) y_{j}(x_{i} ,y_{i} ),(x_{j} ,y_{j})是训练数据中随机抽取的两组向量-标签对,\lambda \in [0,1],用于控制特征与特征之间,标签与标签之间的插值强度。

mixup的实现是在网络中前向进行的,计算开销很小,实验证明在狄利克雷分布(多变量普遍化的\beta 分布)上对三个或者四个特征进行凸组合并不能带来更多的提升,反而会增加计算负担。目前mixup的实现使用一个单独的data loader来得到一个minibatch,mixup在随机shuffle之后应用于同一个minibatch。此外,仅在具有相同标签的输入之间进行插值不会得到性能提升。

mixup可以理解为一种激励模型在训练数据之间表现出线性的数据扩充方法,我们认为,这种线性行为可以在训练集之外进行预测时增加鲁棒性,减少错误预测的数量。此外,从奥卡姆剃刀的角度来看,线性是一种很好的归纳偏差,因为它是最简单的行为之一。


下图是两种不同训练方法下模型的预测误差比较,当在特征x=\lambda x_{i}+(1-\lambda ) x_{j}上进行预测时,如果预测结果不为y_{i} ,y_{j} ,则认为预测错误。可以看出,以mixup训练的模型错误率更小。

预测错误率

下图表示两种模型在以样本x=\lambda x_{i}+(1-\lambda ) x_{j}为输入的模型梯度范数。以mixup训练的模型梯度范数更小。

梯度范数
mixup和ERM在ImageNet-2012验证集上的误差比较
mixup和ERM在CIFAR数据集上的实验测试误差比较

本文还验证了使用mixup训练的模型能够破除网络对噪声标签的过拟合现象:

mixup对于噪声标签的抗过拟合能力明显优于ERM

此外,在对抗样本的测试上,mixup同样优于ERM。对于稳定训练GAN网络也有帮助。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 210,978评论 6 490
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 89,954评论 2 384
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,623评论 0 345
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,324评论 1 282
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,390评论 5 384
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,741评论 1 289
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,892评论 3 405
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,655评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,104评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,451评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,569评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,254评论 4 328
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,834评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,725评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,950评论 1 264
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,260评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,446评论 2 348