梯度下降在整个机器学习中都很重要
〇、问题回顾
找到θ0、θ1,最小化代价函数J(θ0,θ1)
outline
- 初始化θ0,θ1
- 调整θ0、θ1,减小J直到J最小(如何调整呢?)
走下降最快的方向!也就是梯度方向
一、梯度下降法
注意: 新的θ0、θ1是依据上一次的θ0、θ1同时更新的。
二、梯度下降的直观理解
- α太小,收敛速度可能很慢
- α太大,方法可能不收敛
- 即便收敛,也可能没有收敛到J最小值,而可能收敛到某个极小值
- 在收敛的过程中,梯度大小的绝对值会越来越小,所以没有必要逐渐调小α