吴恩达机器学习——正则化

7.1过拟合的问题

过拟合问题简单来说就是泛化能力差：所建的机器学习模型在训练样本中准确率很高，在验证数据集中准确率低——也就是说模型难以推广到新的数据。
下图是一个回归问题的例子：

第一个模型是一个线性模型，欠拟合，不能很好地适应我们的训练集；第三个模型是一个四次方的模型，过于强调拟合原始数据，而丢失了算法的本质：预测新数据。我们可以看出，若给出一个新的值使之预测，它将表现的很差，是过拟合，虽然能非常好地适应我们的训练集但在新输入变量进行预测时可能会效果不好；而中间的模型似乎最合适，它能很好地给出一条判定边界。
分类问题中也存在这样的问题：

就以多项式理解，𝑥 的次数越高，拟合的越好，但相应的预测的能力就可能变差。

问题是，如果我们发现了过拟合问题，应该如何处理？
1.丢弃一些不能帮助我们正确预测的特征。可以是手工选择保留哪些特征，或者使用一
些模型选择的算法来帮忙（例如 PCA）
2.正则化。保留所有的特征，但是减少参数的大小（magnitude）

该章节主要是从以上两点入手讨论，其实也还有其他方法如数据增强、多模型结合（集成学习思想）、dropout等，在这里主要介绍章节内的两点。

7.2代价函数

上面的回归问题中如果我们的模型是：
$h_\theta (x)=\theta _0+\theta _1x_1+\theta _2{x_2}^2+\theta _3{x_3}^3 +\theta _4{x_4}^4$

我们可以从之前的事例中看出，正是那些高次项导致了过拟合的产生，所以如果我们能让这些高次项的系数接近于0的话，我们就能很好的拟合了。(主要思想就是增大系数来减小它们的贡献）

所以我们要做的就是在一定程度上减小这些参数𝜃 的值，这就是正则化的基本方法。我
们决定要减少𝜃3和𝜃4的大小，我们要做的便是修改代价函数，在其中𝜃3和𝜃4 设置一点惩罚。
这样做的话，我们在尝试最小化代价时也需要将这个惩罚纳入考虑中，并最终导致选择较小
一些的𝜃3和𝜃4。

修改后的代价函数如下：
$min\frac{1}{2m}[\sum\nolimits_{i=1}^m(h_\theta (x^{(i)})-y^{(i)} ] )^2+{1000\theta _3}^2+{10000\theta _4}^2]$
这里𝜃3、𝜃4的系数是随便给的，目的是使𝜃3、𝜃4变小——所以，通过这样的代价函数选择出的𝜃3和𝜃4 对预测结果的影响就比之前要小许多。

但是，假如我们有非常多的特征，我们并不知道其中哪些特征我们要惩罚，我们将对所有的特征进行惩罚，
并且让代价函数最优化的软件来选择这些惩罚的程度。这样的结果是得到了一个较为简单的
能防止过拟合问题的假设：

$J(\theta )=\frac{1}{2m}[\sum\nolimits_{i=1}^m(h_\theta (x^{(i)})-y^{(i)} ] )^2+\lambda \sum\nolimits_{j=1}^n\theta _j^2]$
其中𝜆又称为正则化参数（Regularization Parameter）。
注：根据惯例，我们不对𝜃0 进行惩罚。而且这只会引起很小的变化，所以可以基本上不管太深入。

经过正则化处理的模型与原模型的可能对比如下图所示：

如果选择的正则化参数 λ 过大，则会把所有的参数都最小化了，导致模型变成 ℎ𝜃(𝑥) =𝜃0，
也就是上图中红色直线所示的情况，造成欠拟合。这显然不是我们想要的。

而增加的一项 $\lambda \sum\nolimits_{j=1}^n\theta _j^2$ ，引入正则化参数𝜆的目的是为了平衡
“很好地适应训练集”与“保持参数值较小”这两个目的。
所以对于正则化线性回归，我们要取一个合理的 𝜆 的值。因为如果我们令 𝜆 的值很大的话，为了使
Cost Function 尽可能的小，所有的 𝜃 的值（不包括𝜃0）都会在一定程度上减小。
但若 λ 的值太大了，那么𝜃（不包括𝜃0）都会趋近于 0，这样我们所得到的只能是一条
平行于𝑥轴的直线。

回顾一下代价函数，为了使用正则化，让我们把这些概念应用到到线性回归和逻辑回归中去，
那么我们就可以让他们避免过度拟合了。

7.3正则化线性回归

对于线性回归的求解，我们之前推导了两种学习算法：一种基于梯度下降，一种基于正规方程。

正则化线性回归的代价函数为：

$J(\theta )=\frac{1}{2m}[\sum\nolimits_{i=1}^m(h_\theta (x^{(i)})-y^{(i)} ] )^2+\lambda \sum\nolimits_{j=1}^n\theta _j^2]$
如果我们要使用梯度下降法令这个代价函数最小化，因为我们未对进行正则化，所以梯
度下降算法将分两种情形：
𝑅𝑒𝑝𝑒𝑎𝑡 𝑢𝑛𝑡𝑖𝑙 𝑐𝑜𝑛𝑣𝑒𝑟𝑔𝑒𝑛𝑐𝑒{
$\theta _0:=\theta _0-a\frac{1}{m} \sum\nolimits_{i=1}^m (h_\theta (x^{(i)})-y^{(i)})x_0^{(i)})$
$\theta _j:=\theta _j-a[\frac{1}{m} \sum\nolimits_{i=1}^m (h_\theta (x^{(i)})-y^{(i)})x_j^{(i)}+\frac{\lambda }{m} \theta _j]$
}
𝑅𝑒𝑝𝑒𝑎t
对上面的算法中𝑗 = 1,2, . . . , 𝑛 时的更新式子进行调整可得：
$\theta _j:=\theta _j(1-a\frac{\lambda }{m}) -a\frac{1}{m} \sum\nolimits_{i=1}^m (h_\theta (x^{(i)})-y^{(i)})x_j^{(i)}$

可以看出，正则化线性回归的梯度下降算法的变化在于，每次都在原有算法更新规则的
基础上令𝜃值减少了一个额外的值。（在原有的𝜃 j上乘上一个小于它的数来把参数压缩了）
我们同样也可以利用正规方程来求解正则化线性回归模型，方法如下所示：

图中的矩阵尺寸为 (𝑛 + 1) ∗ (𝑛 + 1)。

注：
正规化也可以解决奇异方程（退化方程）问题——具体来说，只要正则参数使严格大于0的，实际上可以证明
上面的涉及到的矩阵（这里指上面的正规方程括号里面的部分）就不是奇异的，换而言之，它是可逆的。

7.4正则化的逻辑回归模型

针对逻辑回归问题，我们在之前的课程已经学习过两种优化算法：我们首先学习了使用梯度下降法来优化代价函数𝐽(𝜃)，接下来学习了更高级的优化算法像Conjugate gradient、BFGS(变尺度法)、L-BFGS(限制变尺度法)，这些高级优化算法需要
我们自己设计代价函数𝐽(𝜃)。

自己计算导数同样对于逻辑回归，我们也给代价函数增加一个正则化的表达式，得到代价函数：

J(\theta )=\frac{1}{m} \sum_{i=1}^m[-y^{(i)}log(h_\theta (x^{(i)}))-(1-y^{(i)})log(1-h^\theta (x^{(i)}))]+\frac{\lambda }{2m} \sum_{j=1}^n{\theta _j}^2

Python 代码：
import numpy as np
def costReg(theta, X, y, learningRate):
 theta = np.matrix(theta)
 X = np.matrix(X)
 y = np.matrix(y)
 first = np.multiply(-y, np.log(sigmoid(X*theta.T)))
 second = np.multiply((1 - y), np.log(1 - sigmoid(X*theta.T)))
 reg = (learningRate / (2 * len(X))* np.sum(np.power(theta[:,1:the
ta.shape[1]],2))
 return np.sum(first - second) / (len(X)) + reg

要最小化该代价函数，通过求导，得出梯度下降算法为：
𝑅𝑒𝑝𝑒𝑎𝑡 𝑢𝑛𝑡𝑖𝑙 𝑐𝑜𝑛𝑣𝑒𝑟𝑔𝑒𝑛𝑐𝑒{
$\theta _0:=\theta _0-a\frac{1}{m} \sum\nolimits_{i=1}^m (h_\theta (x^{(i)})-y^{(i)})x_0^{(i)})$
$\theta _j:=\theta _j-a[\frac{1}{m} \sum\nolimits_{i=1}^m (h_\theta (x^{(i)})-y^{(i)})x_j^{(i)}+\frac{\lambda }{m} \theta _j]$
𝑓𝑜𝑟 𝑗 = 1,2, . . . 𝑛
}

注：看上去同线性回归一样，但是知道 $h_\theta (x)=g(\theta ^TX)$ ，所以与线性回归不同。

在Octave 中，我们依旧可以用 fminuc 函数来求解代价函数最小化的参数，值得注意的
是参数𝜃0的更新规则与其他情况不同。
注意：

虽然正则化的逻辑回归中的梯度下降和正则化的线性回归中的表达式看起来一样，
但由于两者的ℎ𝜃(𝑥)不同所以还是有很大差别。

这里给出的是正则

𝜃0不参与其中的任何一个正则化。>

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 211,423评论 6赞 491
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,147评论 2赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 157,019评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,443评论 1赞 283
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,535评论 6赞 385
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,798评论 1赞 290
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,941评论 3赞 407
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,704评论 0赞 266
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,152评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,494评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,629评论 1赞 340
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,295评论 4赞 329
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,901评论 3赞 313
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,742评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,978评论 1赞 266
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,333评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,499评论 2赞 348

吴恩达机器学习——正则化

7.1过拟合的问题

7.2代价函数

7.3正则化线性回归

7.4正则化的逻辑回归模型

推荐阅读更多精彩内容