Mixup数据增强/增广和半监督论文导读

1.简介

为了回答如下问题，我们进行了论文的阅读和分析：
1.数据增强和半监督有什么联系？
2.现在的数据增强算法背后有一些什么假设或者理论支持？
3.现在的半监督算法背后有一些什么假设或者理论支持？
如果回答了1，2和3的答案也就有了。
首先，我们介绍一下数据增强和半监督，然后回答问题一。
然后，我们回答问题二
最后，我们回答问题三

背景知识
1.数据增强定义：Data augmentation in data analysis are techniques used to increase the amount of data by adding slightly modified copies of already existing data or newly created synthetic data from existing data. It acts as regularizer and helps when training a machine learning model.It is closely related to oversampling in data analysis.
利用已有的数据来生成新的数据来扩充数据规模，可以帮助正则化模型，与过采样的方法关系紧密。

2.半监督算法定义: Semi-supervised learning is an approach to machine learning that combines a small amount of labeled data with a large amount of unlabeled data during training. Semi-supervised learning falls between unsupervised learning (with no labeled training data) and supervised learning (with only labeled training data). It is a special instance of weak supervision.
处于监督学习和无监督学习之间，是一种若监督学习的特例。顾名思义，适用场景是那种有部分有标记数据和大量(远多于有标记)的无标记数据的场景。其目标是如何从无标数据中提取到有效的信息来帮助任务的提升。

3.半监督的三个基本假设：
1.Smoothness assumption
假设彼此靠近的点更有可能共享标签。在监督学习中通常也假定这一点，并且会优先选择几何上简单的决策边界。在半监督学习的情况下，平滑度假设还会对低密度区域的决策边界产生偏爱。因为很少有不同的点彼此靠近但又属于不同的类别。
2.Cluter assumption
数据往往会形成离散的群集，并且同一群集中的点更可能共享标签（尽管共享标签的数据可能会分布在多个群集中）。这是平滑假设的一种特殊情况，并导致使用聚类算法进行特征学习。
3.Manifold assumption
数据在流形空间上的维度比输入空间低得多。在这种情况下，使用标记和未标记数据的流行空间进行学习可以避免维数的诅咒。学习方法可以使用流行空间上定义的距离和密度进行学习。
（流行空间：相当于是原始输入空间的一些子集或者子结构，类似于一组表示向量空间的基向量）

回答问题一
数据增强(DA)和半监督学习(SSL)可以共享上面三个假设，半监督学习是如何基于假设来利用已有的无标记数据，而数据增强是基于上述某（几）种假设的情况下利用有标数据来生成合成数据并为合成数据打上了标签。由此可见，数据增强背后的假设与半监督的假设其实是同一套假设。

2.数据增强/增广(Data Augmentation, DA)

这个章节简单介绍了一下数据增强的分支流派，然后主要介绍其中的Mixup相关的方法。

现有DA方法都是对现有的标记数据进行一定的修改来得到新的数据。
-基于平滑假设的方法：会在原始输入上进行crop和旋转等各种操作，例如AutoAugmentation, CutOut 和Mixup等.
-基于流行假设的方法：在模型的隐藏层进行一定的修改来得到新的样本，例如AT，VAT和Manifold Mixup等。

回答问题二
数据增强(DA)现在的方法主要基于两种假设来进行设计：平滑假设和流行假设。我们看到，Mixup是一种可以同时利用两种假设的方法，因此其具有更多的适用场景。下面，我们对两种主要的Mixup方法进行介绍。

mixup: Beyond empirical risk minimization

文章发表于2018年的ICLR(poster)
文章提出了一种基于两个样本以及标签插值生成新样本以及标签的数据增强方法。
问题：深度神经网络会有一些意外的行为，如：memorization and sensitivity to adversarial examples。
动机：鼓励模型在两个样本之间表现的更加线性
方法：随机对两个样本数据进行样本和标签的插值，生成新的数据。将新生成的数据加入到训练集中扩充训练集。

image.png

代码：https://github.com/facebookresearch/mixup-cifar10
经验总结
1.基于迪利克雷分布中抽样权重进行的两个以上的样本和标签的线性组合不会进一步提升效果。
2.Mixup只是在一个minbatch中进行
3.同一个类别的进行mixup效果不佳

Ablation Study

image.png

Manifold Mixup: Better Representations by Interpolating Hidden States

文章发表于2018年的ICLR(poster)
文章提出了一种基于两个样本以及标签插值生成新样本以及标签的数据增强方法。
问题：深度学习模型经常对有细微不同的输入以高置信度出错。
贡献：1.决策边界更加光滑->泛化能力提升
2.在捕捉更高层信息的隐藏层上进行mixup，提供了额外的训练信号
3.更平的类别表示->减少变动显著的方向数量
方法：随机对两个样本的隐藏表示(随机某一个层次 $\in$ {0,1,2})和标签进行插值，生成新的数据。将新生成的数据加入到训练集中扩充训练集。

image.png

代码：https://github.com/vikasverma1077/manifold_mixup

3.半监督学习(Semi-Supervised Learning, SSL)

这个章节简单介绍了一下基于Mixup的半监督学习技术以及背后的假设。第一章我们介绍了三种半监督学习的假设，主流的半监督学习算法都会基于其中的一种或几种假设来进行设计。第二章介绍了Mixup这种数据增强的算法。这个章节会继续介绍Mixup在半监督学习上的应用的现状。

[ICT: Interpolation Consistency Training for

Semi-Supervised Learning](https://arxiv.org/pdf/1903.03825.pdf)
文章2019年放到了arxiv
文章提出了一种基于两个无标样本进行插值的一致性正则的半监督方法。
动机：提出了一种基于插值的半监督算法范式。可以将模型的决策边界往低密度区间移动（smoothness/cluster assumption)

image.png

方法：

image.png

实验：

image.png

代码：https://github.com/vikasverma1077/ICT

MixMatch: A Holistic Approach to Semi-Supervised Learning.

文章发表于NeurIPS 2019

该方法是主要思想是让模型对增强前后的无标数据表现一致，也就是一致性正则。同时，该方法也采用了熵最小正则和正常的l2正则。（smoothness/cluster assumption）
动机：统一了目前用于半监督学习的主流方法，以产生一种新算法MixMatch，该算法猜测数据增强的未标记示例的低熵标签，并使用MixUp混合已标记和未标记的数据。
方法

image.png

实验

image.png

代码：https://github.com/google-research/mixmatch

4.总结

数据增强和半监督算法基于同样的三个假设。
因此数据增强算法和半监督算法联系紧密，相互促进。
半监督算法的常用技术都可以从三个假设的角度来解释，如下：
熵最小正则：模型的输出结果可以表示该数据在多个类别聚类之间的重合程度，熵越大，预测结果越集中，重合度也就越小，应该属于聚类假设
一致性正则：无标数据增强前模型的预测结果=增强后的预测结果，典型的平滑假设。

最后编辑于：2021.03.24 17:21:27

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,126评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,254评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,445评论 0赞 341
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,185评论 1赞 278
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,178评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,970评论 1赞 284
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,276评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,927评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,400评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,883评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,997评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,646评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,213评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,204评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,423评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,423评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,722评论 2赞 345

Mixup数据增强/增广和半监督论文导读

Mixup数据增强/增广和半监督论文导读

目录

1. 简介

2. 数据增广

2.1 Mixup论文

2.2 Manifold Mixup论文

3. 半监督

3.1 ICT 论文

3.2 MixMatch 论文

4. 总结

Mixup数据增强/增广和半监督论文导读

1.简介

2.数据增强/增广(Data Augmentation, DA)

mixup: Beyond empirical risk minimization

Manifold Mixup: Better Representations by Interpolating Hidden States

3.半监督学习(Semi-Supervised Learning, SSL)

[ICT: Interpolation Consistency Training for

MixMatch: A Holistic Approach to Semi-Supervised Learning.

4.总结

推荐阅读更多精彩内容