深度学习与神经网络:AIC,BIC,L1,L2

在学习深度学习时,我们经常会听到AIC, BIC 还有l1, lasso 等regularization 的知识。

但是随之产生了一些问题,其中一个就是AIC，BIC和l1,l2的应用场景是不是相同或者有重叠的地方？

首先先让我们思考两个问题

1）实现参数的稀疏有什么好处吗？

一个好处是可以简化模型，避免过拟合。因为一个模型中真正重要的参数可能并不多，如果考虑所有的参数起作用，那么可以对训练数据可以预测的很好，但是对测试数据就只能呵呵了。另一个好处是参数变少可以使整个模型获得更好的可解释性。

2）参数值越小代表模型越简单吗？

是的。为什么参数越小，说明模型越简单呢，这是因为越复杂的模型，越是会尝试对所有的样本进行拟合，甚至包括一些异常样本点，这就容易造成在较小的区间里预测值产生较大的波动，这种较大的波动也反映了在这个区间里的导数很大，而只有较大的参数值才能产生较大的导数。因此复杂的模型，其参数值会比较大。

接下来我将对AIC和BIC以及L系列正规化进行一些介绍:

1:AIC和BIC

AIC和BIC是同一个指标，一般用于选择模型，也就是模型的比较优劣

他们的不同之处在于

AIC=-2 ln(L) + 2 k 中文名字：赤池信息量 akaike information criterion

BIC=-2 ln(L) + ln(n)*k 中文名字：贝叶斯信息量 bayesian information criterion

HQ=-2 ln(L) + ln(ln(n))*k hannan-quinn criterion

构造这些统计量所遵循的统计思想是一致的，就是在考虑拟合残差的同时，依自变量个数施加“惩罚”。

但，倘若因此就说它们是同一个指标，恐怕还是有些不妥，毕竟“惩罚”的力度还是不尽相同的。

此外，这些信息量的用途不仅限于选择模型，还能用于选取合适的变换等等。而在那些时候，这些信息量又是另一个模样，也就是说它们有许多变体。因此，它们也被称为AIC准则、BIC准则等等。它们中的每一个体现的都是一系列的标准，而非单独的一个简单式子

[有关赤池信息量的更多信息可以参照一下的博客BIC AIC HQ - s1491695565的专栏 - 博客频道 - CSDN.NET]

2:L0,L1,L2正则化的一些介绍:

在机器学习中,我们听到的L0,L1这样的正则化方法比AIC,BIC要多得多,那么这些正则化的概念是什么呢?

1:正则化概念

L0正则化的值是模型参数中非零参数的个数。

L1正则化表示各个参数绝对值之和。

L2正则化标识各个参数的平方的和的开方值。

1:L0正则化

从我们开头的那两个问题我们可以知道,稀疏的参数可以有效地解决过拟合的问题,因此我们可以用非零参数的个数去做正则化的运算来去解决过拟合的问题.但是因为L0正则化很难求解,是一个NP,所以我们一般都采用L1正则化.

2:L1正则化

因为L1正则化是L0正则化的最优凸近似,并且在比L0更好求解的同时,也可以实现稀疏的效果,因此在实际过程中L1常常用来代替L0,来防止过拟合,L1之所以可以解决过拟合,是因为L1的范数是各个参数的绝对值相加得到的,我们在之前讨论了参数的大小和模型的复杂度是成正比对的,因此越是复杂的模型,其中的L1范数也就越大,最终导致的损失函数也就越大,其实也就说明这个模型不够优秀.

3:L2正则化

L2和L1正则化去解决过拟合的方法基本一样,只是形式的表现上有所区别,L2范数是各参数的平方和再求平方根，我们让L2范数的正则项

最小，可以使W的每个元素都很小，都接近于0。但与L1范数不一样的是，它不会是每个元素为0，而只是接近于0。越小的参数说明模型越简单，越简单的模型越不容易产生过拟合现象。

对着两种进行对比,L1会趋向于产生少量的特征，而其他的特征都是0，而L2会选择更多的特征，这些特征都会接近于0。L1在特征选择时候非常有用，而L2就只是一种规则化而已。在所有特征中只有少数特征起重要作用的情况下，选择L1比较合适，因为它能自动选择特征。而如果所有特征中，大部分特征都能起作用，而且起的作用很平均，那么使用L2也许更合适。

回到我们的文章最先的问题中,我们应该怎么选择AIC和BIC以及L系类正则化问题中,我想在机器学习领域,大家对 L1和 L2 说的很赞，他们就是不同的正则化方式，主要用于参数学习。但是AIC/BIC 虽然也是一种正则化，但他们多用于结构选择。比如贝叶斯网结构学习时，单纯用似然会导致极其稠密的网络，使用这两种信息准则替代似然，会得到比较满意的解。

l1, l2 是在模型训练的过程中通过正则项来控制feature 个数，达到防止模型过拟合的问题。

AIC,BIC是在已经训练出来的模型中选择更好的那个模型时候的判断准则。

他们的共性是都是为了找到更好的模型。区别是l1,l2在模型训练的过程中通过加约束来达到生成更好的模型的目的。而AIC,BIC是在已经训练好的不同模型里面筛选出相对最好的那个模型,目的不同,最终的结果也一定有所差距.

好了,这就是这篇文章的所有内容,大家如果有更好的建议和观点也希望和我一起多多讨论

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 211,376评论 6赞 491
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,126评论 2赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 156,966评论 0赞 347
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,432评论 1赞 283
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,519评论 6赞 385
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,792评论 1赞 290
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,933评论 3赞 406
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,701评论 0赞 266
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,143评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,488评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,626评论 1赞 340
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,292评论 4赞 329
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,896评论 3赞 313
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,742评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,977评论 1赞 265
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,324评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,494评论 2赞 348

深度学习与神经网络:AIC,BIC,L1,L2

推荐阅读更多精彩内容