第一章 线性回归(Linear Regression)

0. 前言

以下内容是根据coursera上《机器学习》课程所做的学习笔记,笔记中摘录了课程上的部分图片,也加入了自己的理解,为了能更好的的让自己回顾所学内容并且和大家分享,以中文形式进行阐述。

本篇文章仅供学习交流使用,需要获取更多信息还请大家登录官方网站https://www.coursera.org/

由于是初次写博客,其中必然有很多地方考虑不到的地方,我会在之后做出修改,还请大家包涵。

1. 线性回归的模型表示

  1. 使用x(i)表示输入变量,也叫“输入特征”; 使用y(i)表示输出变量,也叫“目标变量”
  2. 一个(x(i), y(i))对称为一个训练样例
  3. 我们用来训练的数据集是一个训练样本列表(x(i), y(i)), i = 1,...,m
  4. 我们使用X,Y分别表示输入变量和输出变量的取值范围

2. 对于supervised learning的正式表述

给出一个训练数据集,我们要找到这样一个函数h:X → Y使得h称为对于输出的一个好的预判,这个函数称为hypothesis,记为hθ

3. 成本函数cost function

为了评价hypothesis方程的精确性,定义一个cost function

我们可以看到成本函数与统计学上计算样本的方差较为类似。

4. 对cost function 的直观理解

只有一个参数的cost function

有两个参数的cost function(用等值线图表示)

5. 梯度下降法(gradient descent)

5.1 梯度下降法的表述

由于我们已经有了评价hypothesis方程适应数据程度的方法(cost function), 那么接下来的任务就是如何找到cost function 的最小值, 梯度下降算法是其中的一个方法.

给定一组训练数据集,我们根据采用不同的θ0, θ1得到不同的hypothesis方程hθ0, θ1),并计算出了它的cost function Jθ0, θ1), 综合所有的θ0, θ1绘制成下图

梯度下降法

我们的目标是找到Jθ0, θ1)的最小值,也就是图中的最低点。那么如何找到这个最低点呢?

假如我们站在图中的任何一点,假设是A点。梯度下降法的做法是“环顾四周,找到一个方向使得我沿着这个方向走一小步下降的距离最大”,于是我环顾四周,找到B点。 然后我重复上述过程,找到C点,然后继续重复上述过程...,最终我来到了箭头所示的最低点。总体上来看,我通过“梯度下降法”来到了图中的一个局部极小值点。

那么这个方法的正式表述是什么呢?

梯度下降法的规范表述

这个方法有几个需要注意的地方
1.α的含义
α称为learning rate,它表现了梯度下降的速率,也就是我们每一步的“大小”,我们会在接下来对它详细的介绍
2.":="的含义
在接下来的讨论中,我们使用符号":="表示先计算右侧的值,再将它赋给左侧(类似于C++的=)。而"="的含义是表示两侧是否相等(类似于C++的==)
3. 同时更新
由于我们要更新的θ值有很多个,在每一次梯度下降时要注意“同时更新”,即:=右侧的值都算出来后,再同时对左侧赋值

同时更新

5.2 对梯度下降法的直观理解

对于梯度下降法的某一个变量,如下图是J(θ1)关于θ1变化的曲线,这个曲线是一个凹函数,有最小值。

θ1的梯度下降过程

由梯度下降公式
[图片上传失败...(image-27f54c-1529201544341)])
当θ1位于右侧时,导数那一项是大于零的,我们一般将learning rate 设置成正数,因此相当于θ1减去一个正数再对θ1进行更新,结果是使θ1减小,也就是使得θ1的值向左移动。
当θ1位于左侧时,导数那一项是小于零的,因此相当于θ1减去一个负数再对θ1进行更新,结果是使θ1增大,也就是使得θ1的值向右移动。

通过这样一步一步的对参数θ进行更新,在保证learning rate α的合理取值的情况下,我们就可以最终获得使得cost function J(θ0, θ1)取得最小值的参数集合。

但是这里存在两个疑问

问题1:如何才算对α的合理取值?

这个需要通过具体的实验一步步的确定,但是我们可以肯定的是,learning rate取值过小或者取值过大都会对算法造成不利的影响

如下图,是α取值过小的情况,我们可以看到每一步迈出的距离都特别小,造成了对于时间的大量损耗。

α 取值过小

而下图则是α 取值过大的情况,我们可以看到,假设我们一开始在A点,此时更新的结果应该是θ1向右移动,但是由于learing rate 过大,导致更新之后的θ1越过了最小值点,直接来到了B点;不幸的是,由于learning rate 还是过大,B点更新后直接越过最小值来到C点,如此这般,使得θ1 非但没有收敛,反而变得发散,这是我们不愿见到的。
α 取值过大

问题2:α的值在梯度下降过程中是变化的吗?

答案是否定的,如下图,如果α的值在一个合理的范围内,导数项是随着更新过程逐渐减小并趋向于零的,也就是会逐渐趋向于最小值,而不是直接越过它


α的值是固定的

5.3 线性回归的梯度下降法(gradient descent for linear regression)

我们结合线性回归的cost function的表述


得到线性回归的梯度下降法的规范表述


这个结果可以通过简单的代入求导得到,对于没有学过微积分的同学,请自行查阅相关书籍。
由于这样的梯度下降法使用了所有的训练用例,机器学习界通常也将它称为batch gradient descent

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 227,428评论 6 531
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 98,024评论 3 413
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 175,285评论 0 373
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 62,548评论 1 307
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 71,328评论 6 404
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 54,878评论 1 321
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 42,971评论 3 439
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 42,098评论 0 286
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 48,616评论 1 331
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 40,554评论 3 354
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 42,725评论 1 369
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 38,243评论 5 355
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 43,971评论 3 345
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 34,361评论 0 25
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 35,613评论 1 280
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 51,339评论 3 390
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 47,695评论 2 370

推荐阅读更多精彩内容