第一章线性回归（Linear Regression）

0. 前言

以下内容是根据coursera上《机器学习》课程所做的学习笔记，笔记中摘录了课程上的部分图片，也加入了自己的理解，为了能更好的的让自己回顾所学内容并且和大家分享，以中文形式进行阐述。

本篇文章仅供学习交流使用，需要获取更多信息还请大家登录官方网站https://www.coursera.org/。

由于是初次写博客，其中必然有很多地方考虑不到的地方，我会在之后做出修改，还请大家包涵。

1. 线性回归的模型表示

使用x⁽ⁱ⁾表示输入变量，也叫“输入特征”; 使用y⁽ⁱ⁾表示输出变量，也叫“目标变量”
一个(x⁽ⁱ⁾, y⁽ⁱ⁾)对称为一个训练样例
我们用来训练的数据集是一个训练样本列表(x⁽ⁱ⁾, y⁽ⁱ⁾), i = 1,...,m
我们使用X,Y分别表示输入变量和输出变量的取值范围

2. 对于supervised learning的正式表述

给出一个训练数据集,我们要找到这样一个函数h:X → Y使得h称为对于输出的一个好的预判,这个函数称为hypothesis，记为h_θ

3. 成本函数cost function

为了评价hypothesis方程的精确性,定义一个cost function

我们可以看到成本函数与统计学上计算样本的方差较为类似。

4. 对cost function 的直观理解

只有一个参数的cost function

有两个参数的cost function(用等值线图表示)

5. 梯度下降法(gradient descent)

5.1 梯度下降法的表述

由于我们已经有了评价hypothesis方程适应数据程度的方法(cost function), 那么接下来的任务就是如何找到cost function 的最小值, 梯度下降算法是其中的一个方法.

给定一组训练数据集,我们根据采用不同的θ₀, θ₁得到不同的hypothesis方程h_θ(θ₀, θ₁),并计算出了它的cost function J_θ(θ₀, θ₁), 综合所有的θ₀, θ₁绘制成下图

梯度下降法

我们的目标是找到J_θ(θ₀, θ₁)的最小值，也就是图中的最低点。那么如何找到这个最低点呢？

假如我们站在图中的任何一点，假设是A点。梯度下降法的做法是“环顾四周,找到一个方向使得我沿着这个方向走一小步下降的距离最大”，于是我环顾四周，找到B点。然后我重复上述过程，找到C点，然后继续重复上述过程...，最终我来到了箭头所示的最低点。总体上来看，我通过“梯度下降法”来到了图中的一个局部极小值点。

那么这个方法的正式表述是什么呢？

梯度下降法的规范表述

这个方法有几个需要注意的地方
1.α的含义
α称为learning rate,它表现了梯度下降的速率，也就是我们每一步的“大小”，我们会在接下来对它详细的介绍
2.":="的含义
在接下来的讨论中，我们使用符号":="表示先计算右侧的值，再将它赋给左侧（类似于C++的=）。而"="的含义是表示两侧是否相等（类似于C++的==）
3. 同时更新
由于我们要更新的θ值有很多个，在每一次梯度下降时要注意“同时更新”，即将:=右侧的值都算出来后，再同时对左侧赋值。

同时更新

5.2 对梯度下降法的直观理解

对于梯度下降法的某一个变量，如下图是J(θ₁)关于θ₁变化的曲线，这个曲线是一个凹函数，有最小值。

θ1的梯度下降过程

由梯度下降公式
[图片上传失败...(image-27f54c-1529201544341)])
当θ₁位于右侧时，导数那一项是大于零的，我们一般将learning rate 设置成正数，因此相当于θ₁减去一个正数再对θ₁进行更新，结果是使θ₁减小，也就是使得θ₁的值向左移动。
当θ₁位于左侧时，导数那一项是小于零的，因此相当于θ₁减去一个负数再对θ₁进行更新，结果是使θ₁增大，也就是使得θ₁的值向右移动。

通过这样一步一步的对参数θ进行更新，在保证learning rate α的合理取值的情况下，我们就可以最终获得使得cost function J(θ₀, θ₁)取得最小值的参数集合。

但是这里存在两个疑问

问题1：如何才算对α的合理取值？

这个需要通过具体的实验一步步的确定，但是我们可以肯定的是，learning rate取值过小或者取值过大都会对算法造成不利的影响。

如下图，是α取值过小的情况，我们可以看到每一步迈出的距离都特别小，造成了对于时间的大量损耗。

α 取值过小

而下图则是α 取值过大的情况，我们可以看到，假设我们一开始在A点，此时更新的结果应该是θ₁向右移动，但是由于learing rate 过大，导致更新之后的θ₁越过了最小值点，直接来到了B点；不幸的是，由于learning rate 还是过大，B点更新后直接越过最小值来到C点，如此这般，使得θ₁ 非但没有收敛，反而变得发散，这是我们不愿见到的。

α 取值过大

问题2：α的值在梯度下降过程中是变化的吗？

答案是否定的，如下图，如果α的值在一个合理的范围内，导数项是随着更新过程逐渐减小并趋向于零的，也就是会逐渐趋向于最小值，而不是直接越过它

α的值是固定的

5.3 线性回归的梯度下降法(gradient descent for linear regression)

我们结合线性回归的cost function的表述

得到线性回归的梯度下降法的规范表述

这个结果可以通过简单的代入求导得到，对于没有学过微积分的同学，请自行查阅相关书籍。
由于这样的梯度下降法使用了所有的训练用例，机器学习界通常也将它称为batch gradient descent

最后编辑于：2018.06.17 10:36:02

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 227,428评论 6赞 531
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 98,024评论 3赞 413
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 175,285评论 0赞 373
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 62,548评论 1赞 307
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 71,328评论 6赞 404
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 54,878评论 1赞 321
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 42,971评论 3赞 439
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 42,098评论 0赞 286
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 48,616评论 1赞 331
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 40,554评论 3赞 354
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 42,725评论 1赞 369
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 38,243评论 5赞 355
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 43,971评论 3赞 345
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 34,361评论 0赞 25
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 35,613评论 1赞 280
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 51,339评论 3赞 390
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 47,695评论 2赞 370

第一章 线性回归（Linear Regression）