[哔哩哔哩视频地址](http://www.bilibili.com/video/av9559261/)
定义本课程常用符号
训练数据:机器用来学习的数据
测试数据:用来考察机器学习效果的数据,相当于考试。
m = 训练样本的数量(训练集的个数)
x = 输入的特征(例如房屋面积)
y = 输出结果(例如房屋售价)
(x(i),y(i)) = 表示训练集中第i个训练样本
监督学习算法的工作方式
将训练集中里的房屋价格喂给学习算法,学习算法就开始工作了,然后输出一个函数,通常被称为h(hypothesis假设函数),有了这个h函数,输入测试数据中想要出售的房屋面积,该函数会给出相应售卖价格,因此h是一个从x到y的函数映射。
当设计学习算法的时候,接下来要思考,怎么得到这个假设h?
如图所示用来预测y关于x的线性函数:hΘ(x) = Θ0 + Θ1*x
为什么是线性?我们还会有很多复杂的函数,由于线性方程是最简单的,所以先从线性方程入手。当然,最终我们将会建立更复杂的模型,以及更复杂的学习算法,让我们也给这模型命名为 线性回归模型。另外这实际上是关于单个变量的线性回归,根据x来预测所有价格的函数,对于这种模型,还有一个名字是单变量线性回归,单变量是对一个变量的一个表达形式,总而言之这就是线性回归。
Cost Function
hΘ(x) = Θ0 + Θ1*x
影响改函数样子的决定因素只有Θ0 和 Θ1, Θ0是一个常数,只是会影响函数曲线的整体在y轴上的位置(函数曲线的高低),真正的变量只有Θ1。我们要做的就是找出 Θ0,Θ1,让假设函数尽量的拟合所有的数据点。
我们知道x表示卖出了哪个房子,而y表示卖出该房子的实际价格,我们要尽量选择参数值,使得在训练集中给出的训练集中的x值,可以合理准确的预测y的值,让我们给出标准的定义,在线性回归中,我们要解决的是一个最小化问题,我们要写出Θ1, Θ0的最小化,我希望h(x) 和 y之间的差距极其小,接近0,尽量减少假设的输出和实际房屋价格之间差的平方。如下式子最小
(hΘ)x - y)2
别忘了,用(x(i),y(i))表示训练集中第i个训练样本,对所有训练样本进行差平方求和
∑(hΘ)x(i) - y(i))2
//求和图标上标为m(样本容量),下标为i=1,(键盘打不出,只能这样标注了)
而为了让这个表达式更容易理解一些,我们实际上考虑的事这个差平方的平均数,更改表达式如下
(1/m)∑(hΘ)x(i) - y(i))2
//求和图标上标为m(样本容量),下标为i=1,(键盘打不出,只能这样标注了)
要尽量减小平方误差,更改表达式如下
(1/2m)∑(hΘ)x(i) - y(i))2
//求和图标上标为m(样本容量),下标为i=1,(键盘打不出,只能这样标注了)
代入hΘ(x) = Θ0 + Θ1*x
(1/2m)∑(Θ0 + Θ1*x(i) - y(i))2
//求和图标上标为m(样本容量),下标为i=1,(键盘打不出,只能这样标注了)
因此我们的目标是找出能使训练集中预测值和真实值差的平方的和的1/2m最小的Θ0和Θ1,因此这就是我们线性回归的整体目标函数
J(Θ0 , Θ1)=(1/2m)∑(Θ0 + Θ1*x(i) - y(i))2
//求和图标上标为m(样本容量),下标为i=1,(键盘打不出,只能这样标注了)
我们要做的就是关于Θ0 和 Θ1 ,对函数J(Θ0 , Θ1) 的求最小值,这就是我的代价函数,代价函数也被称为平方误差函数,有时也被称为平方误差代价函数,之所以要出误差的平方和,是因为误差平方代价函数对于大多数问题,特别是回归问题,都是一个合理的选择。
成本函数(代价函数)
为了简化成本函数J,设置Θ0为0,既函数曲线从原点(0, 0)开始
假设函数hΘ(x)更新为
hΘ(x)=Θ1*x
成本函数J 代入假设函数h
J(Θ1)=1/2m∑(Θ1*x(i) - y(i))2
//求和图标上标为m(样本容量),下标为i=1,(键盘打不出,只能这样标注了)
影响函数曲线斜率的只有Θ1。
代入Θ1 不同的数值,可以得到不同的成本函数J(Θ1),
例:坐标系中现在有(1,1)(2,2),(3,3)三个点,为了更好的拟合数据,做以下尝试,样本总数m = 3
Θ1 = 1 时 h(Θ1) = x, J(Θ1) = 0
J(1) = (1/2m)((1-1)^2+(2-2)^2+(3-3)^2) =(1/2x3)((1-1)^2+(2-2)^2+(3-3)^2)= 0
Θ1 = 0.5 时 h(Θ1) = 0.5x, J(Θ1) = 0.58
J(0.5) = (1/2m)((0.5-1)^2+(1-2)^2+(1.5-3)^2) = (1/2x3)((0.5-1)^2+(1-2)^2+(1.5-3)^2) = 14/6 ≈ 0.58
Θ1 = 0 时 h(Θ1) = 0, J(Θ1) = 2.3
J(0) = (1/2m)(1^2+2^2+3^2) = (1/2x3)(1+4+9) = 14/6 ≈ 2.3
提示:成本函数计算方法是每一个点的真实数值于假设函数预测值的差的平方的和乘1/2m
代入不同的Θ1,得到不同的J(Θ1),这些不同的J(Θ1)形成了一个函数曲线,该曲线最低点就是J(Θ1)的最小值,既当Θ1=1时 J(Θ1)最小。
等高线图
使用完整的假设函数h和成本函数J,保留假设函数的所有参数Θ0,Θ1
等高线图?
有一个座大山,地面测量大山各点的海拔高度,映射到平面上。高度相同的用线连接起来,形成的这个图就是等高线图,看着像一圈圈的大树年轮,越靠近中心海拔越高。
当参数为两个时,如何绘制成本函数?
假设函数参数共两个,需要在三维坐标系中绘制,x轴为Θ0,y轴为Θ1,z轴为J(Θ0,Θ1),代入不同的Θ0,Θ1,会得到不同的J(Θ0,Θ1),在三维坐标系中像是一个盆地地形。将盆地映射到平面上也就形成了一圈一圈的等高图,越靠近中心的地方成本函数J的数值就越小。
梯度下降
梯度下降是比较常用的最小化代价函数J的算法。
我们在梯度下降中要做的就是不停地一点点地改变Θ0,Θ1的值,试图通过改变使得J(Θ0,Θ1)变小,直到找到J的最小值或许是局部最小值。
我在试图让这个函数值最小,注意坐标轴Θ0和Θ1在水平轴上,而函数J在垂直坐标轴上,图形表面高度则是J的值。从Θ0,Θ1的某个值出发,所以想象一个对Θ0,Θ1赋予某个初值,从该点下山,一直到山脚,下山的每一步朝什么方向。你站在山上某个点,你看一下周围,你会发现最佳的下山方向,然后继续看周围,找出最佳下一步应该朝那个方向走,一直到山脚。
梯度下降算法定义
- := 表示赋值
- α 是一个数字,被称为学习速率,在梯度下降中,它控制下降的步子的大小
- (∂/∂Θj)J(Θ0,Θ1) 是一个微分项
在梯度下降中,我们要更新Θ0,Θ1,当j=0 和 j=1 时 会产生更新,所以你将更新J Θ0,Θ1,在这个表达式中,如果你要更新这个等式,必须同时更新Θ0,Θ1。我们需要这样更新,Θ0:=Θ0-一些东西,Θ1:=Θ1-一些东西。
梯度下降更直观的认识
用一个简单的例子,比如最小化的函数只有一个参数的情形,所以 假如我们有一个代价函数J,只有一个参数Θ1,Θ1是一个实数,所以可以画出一维的曲线。试着去理解为什么梯度下降会在函数上起作用。
图中横轴为Θ的值,纵轴为J的值,曲线是J(Θ1) 代价函数的曲线。
当从小红点开始出发进行梯度下降,计算J(Θ1)在小红点处的导数项,得出导数项数值小于0,故Θ1 = Θ1-学习速率乘一个负的导数值,也就是Θ1加上一个正数,所以Θ1的值会向右移动,逐渐靠近最低点。
当从小蓝点开始出发进行梯度下降,计算J(Θ1)在小蓝点处的导数项,得出导数值大于0,故Θ1 = Θ1-学习速率乘一个正的导数值,也就是Θ1减一个正数,所以Θ1的值会向左移动,逐渐靠近最低点。
小红点处的切线的斜率就是导数值,随着小红点逐渐收敛至最低点,切线斜率逐渐降低,移动的步子大小也会越来越小。
梯度下降和代价函数结合,以及推导
用梯度下降的方法,求最小化平方误差代价函数。
推倒过程
推倒结果
反复执行括号里的式子,直到收敛到最小值,Θ0和Θ1不断的更新。都是加上一个-α/m 乘以后面的求和项。所以这就是我们的线性回归算法。
重要概念
首先在解决这个代价函数最小化的时,有一个算法可以直接解出Θ0 和 Θ1的值,而不必借助迭代,也就是梯度下降这一类,要求多次迭代的算法。这个算法可以直接求出Θ0 和 Θ1,也同时带来的优点和缺点。
好处之一是你不在需要设定学习速率,因此你可以更快的解决一些问题。
我们一直在只有一个特征的情况下学习,也就是用房子的大小来预测它的价格,也就是用一个变量x来预测一个变量y,但实际情况中可能会面对更多的特征作为变量,比如房子的大小,卧室的数量,楼层数,房子年份,等等。利用这些特征来预测房屋价格。想要描绘并可视化这些特性变量变的困难,如果绘制,图像已经操作三维。
线性代数赋予了我们一套符号系统和操作来进行,矩阵和向量的处理。这里是一个矩阵
[2104 5 1 45]
X =[1416 3 2 40]
[1534 3 2 30]
[460]
Y =[232]
[172]
中括号连接起来(键盘打不出一个大括号)
第一列会房子大小,第二列为卧室数量,第三列为楼层数,第四列为房子的年份。Y
则对应了房子售价。
这样做的好处是将某个样本大量的特征转换为了矩阵中的一列,通过索引可以取道某个样本的某个特征例如X23 = 30
欢迎关注我的公众号