1. 单特征线性回归
关键词
hypothesis 假设、估计
cost function 代价函数
代价函数 J(θ) = 1/2(估计值 - 真实值)的平方
误差平方和函数: 1/2为了方便求导
2.梯度下降
对于一个二元函数,先对J(θ) 求导,得到误差斜率,沿着斜率方向,按照步长逐渐减小。步长不宜过大,会错过代价函数最小点;也不宜过小,迟迟不能到达最小点。
多特征线性回归时,θ沿着梯度最小的方向减少,向量θ中的每一个分量都可以求出一个梯度方向,找到一个整体的方向,朝着变化最多的方向下降。
对于给定的M个点的数据集,可以用M-1次的函数取完美的拟合这个点集。
最小二乘法
基于假设:回归函数的估计值与真实值之间的误差假设是一个高斯分布
即:t (真实值)= y (x,w)(估计值) + E(误差)
偏差 -- 方差 -- 误差
偏差(bias): 预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据.
方差(variance):描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散。
泛化误差(error): 方差 + 偏差
泛化误差:训练处一个模型后,在新的数据集上使用时的错误率
在一个数据集中,经过科学采样,得到一些子数据集,根据不同的子数据集可以训练处不同的模型。
- 方差和偏差的变化一般是和模型的复杂程度成正比
- 方差:对于一个数据集追求精确,可能会训练处不同的模型,他们的差异非常大,即方差非常大,但是模型很精确,偏差非常小
- 偏差越小说明越能够拟合真实的训练数据,泛化误差会大
- 偏差:可以在单个数据集中,也可以在多个数据集中比较
- 方差:在一个数据集的多个模型之间比较
实际使用时多取方差和偏差加起来最优的点,就是我们最佳的模型复杂度。
实际上,根据公式推导,损失函数 = 偏差的平方 + 方差 + 固有噪声