《深度学习》之第七章正则化

正则化是增强模型泛化能力,减少测试误差的策略;它可以在不过度增加偏差的情况下显著的减少方差。

  1. 参数范数惩罚
参数范数惩罚正则化

L2范数:w的平均平方和, 也叫weight decay(权重衰减),绝对值偏大权重会受到更大惩罚,使得所有权重倾向比较小。

L2范数正则化的理解

L2(或权重衰减)正则化对最佳 w 值的影响。实线椭圆表示没有正则化目标的等值线。虚线圆圈表示 L2 正则化项的等值线。在 w ̃ 点,这两个竞争目标达到平衡。目标函数 J 的 Hessian 的第一维特征值很小。当从 w∗ 水平移动时,目标函数不会增加得太多。因为目标函数对这个方向没 有强烈的偏好,所以正则化项对该轴具有强烈的影响。正则化项将 w1 拉向零。而目标函数对沿着第二维远离 w∗ 的移动非常敏感。对应的特征值较大,表示高曲率。因此,权重衰减对 w2 的位置影响相对较小。

L1范数:w的平均绝对值之和。它会让很多权重变为0,产生稀疏的解。 这种特性也导致L1经常用在特征选择上。

  1. 作为约束的范数惩罚

如果我们想约束 Ω(θ) 小于某个常数 k,我们可以构建广义 Lagrange 函数:

带条件的约束的目标函数

我们可以把参数范数惩罚看 作对权重强加的约束。如果 Ω 是 L2 范数,那么权重就是被约束在一个 L2 球中。如 果 Ω 是 L1 范数,那么权重就是被约束在一个 L1 范数限制的区域中。

  1. 正则化和欠约束问题
    很多机器学习的方法需要对X'X是可逆的,但实际中X'X很可能是个奇异矩阵。 正则化的许多形式对应求逆 X'X + aI, 这个正则化矩阵可以保证是可逆的。

  2. 数据集增强
    让机器学习模型泛化得更好的最好办法是使用更多的数据进行训练。当然,在 实践中,我们拥有的数据量是很有限的。解决这个问题的一种方法是创建假数据并添加到训练集中。比如:图片翻转,剪切,缩放,旋转等。

  3. 噪声鲁棒性

  4. 半监督学习

  5. 多任务学习
    多任务学习是通过合并几个任务中的样例(可以视为对参数施加的软约束)来提高泛化的一种方式。额外的训练样本以同样的方式将模型的参数推向泛化更好的方向,当模型的一部分在任务之间共享时,模型的这一部分更多地被约束为良好的值(假设共享是合理的),往往能更好地泛化。

  6. 提前终止
    当训练有足够的表示能力甚至会过拟合的大模型时,训练误差会随着时间的推移逐渐降低但验证集的误差会再次上升。这意味着如果我们返回使验证集误差最低的参数设置,就可以获得更好的模型 (因此,有希望获得更好的测试误差)。在每次验证集误差有所改善后,我们存储模型参数的副本。当验证集上的误差在事先指定的循环次数内没有进一步改善时,算法终止。

提前终止的训练示意图
  1. 参数绑定和参数共享
    卷积神经网络就是参数共享的列子

  2. 稀疏表示
    前文所述的权重衰减直接惩罚模型参数。另一种策略是惩罚神经网络中的激活 单元,稀疏化激活单元。这种策略间接地对模型参数施加了复杂惩罚。

  3. Bagging 和其他集成方法
    Bagging(bootstrap aggregating)是通过结合几个模型降低泛化误差的技术。主要想法是分别训练几个不同的模型,然后让所有模型表决测试样例的输出。这是机器学习中常规策略的一个例子,被称为模型平均(model averaging)。采用这种策略的技术被称为集成方法。
    模型平均(model averaging)奏效的原因是不同的模型通常不会在测试集上产 生完全相同的误差。

不同的集成方法以不同的方式构建集成模型。例如,集成的每个成员可以使用 不同的算法和目标函数训练成完全不同的模型。
Bagging是一种允许重复多次使用同 一种模型、训练算法和目标函数的方法。具体来说,Bagging涉及构造 k 个不同的数据集。每个数据集从原始数据集中重 复采样构成,和原始数据集具有相同数量的样例。这意味着,每个数据集以高概率 缺少一些来自原始数据集的例子,还包含若干重复的例子(如果所得训练集与原始数据集大小相同)。模型 i 在数据集 i 上训练。每个数据集所含样本的差异导致了训练模型之间的差异。

神经网络的解能达到足够多的变化,可以从模型平均中受益 (即使所有模型都在同一数据集上训练)。神经网络中随机初始化的差异、小批量的随机选择、 超参数的差异或不同输出的非确定性实现往往足以使得集成中的不同成员具有部分独立的误差。

  1. Dropout
    Dropout(Dropout) 提供了正则化一大类模型的方 法,计算方便但功能强大。在第一种近似下,Dropout可以被认为是集成大量深层神 经网络的实用Bagging方法。Bagging涉及训练多个模型,并在每个测试样本上评估多个模型。当每个模型都是一个很大的神经网络时,这似乎是不切实际的,因为训 练和评估这样的网络需要花费很多运行时间和内存。

在Bagging的情况下,所有模型都是独立的;Dropout的情况下,所有模型共享参数,其中每个模型继承父神经网络参数 的不同子集。参数共享使得在有限可用的内存下表示指数级数量的模型变得可能。

Dropout优点:计算方便,不限制适用的模型或训练过程,几乎在所有使用分布式表示且可以用随机梯度下降训练的模型上都表现很好。

因为Dropout减少了模型的有效容量。为了抵消这种影响,我们必须增大模型规模和更多的训练数据。对于非常大的数据集,正则化带来的泛化误差减少得很小,好处有限; 而使用Dropout和更大模型可能超过正则化带来的好处!
同时也要注意:只有极少的训练样本时,Dropout不会很有效。

Dropout可以被看成是一种纯粹高效近似Bagging的方法。更进一步的,Dropout不仅仅是训练一个Bagging的集成模型,并且是共享隐藏单元的集成模型。这意味着无论其他隐藏单元是否在模型中,每个隐藏单元必须都能够表现良好。隐藏单元必须准备好进行模型之间的交换和互换。Dropout正则化每个隐藏单元不仅是一个很好的特征,更要在许多情况下是良好的特征。相比独立模型Bagging集成获得泛化误差,Dropout会带来额外的改进。

  1. 对抗训练
    在精度达到人类水平的神经网络上可以通过优化过程故意构造数据点,其上的误差率接近100%! 模型在这个输入点 x′ 的输出与附近的数据 点 x 非常不同。在许多情况下,x′ 与 x 非常近似,人类观察者不会察觉原始样本和对抗样本(adversarial example)之间的差异,但是网络会作出非常不同的预测。
对抗样本实例
  1. 切面距离、正切传播和流形正切分类器
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,542评论 6 504
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,822评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,912评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,449评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,500评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,370评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,193评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,074评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,505评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,722评论 3 335
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,841评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,569评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,168评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,783评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,918评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,962评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,781评论 2 354

推荐阅读更多精彩内容