在机器学习中,训练集的样本数量用m表示,输入变量也称特征变量用x表示,输出变量也称目标变量用y表示。对于整个房价模型可用下列图片中的抽象构建来表示:
h是假设函数,完成从x(房屋大小)到y(房屋价格)的映射,形如h(x)=θ0+θ1*x1的假设函数称为单变量线性回归,因为变量中只有一个特征。
代价函数又称损失函数,用于刻画目标预测值和实际值之间的拟合度,往往用均方误差的方法来度量,将代价函数缩至最小,就能使拟合度达到最高。线性回归常用计算代价函数的方法是最小二乘法。
梯度下降法用来计算损失函数的最小值,为了获得合适的参数θ0和θ1的值,需要对两者进行同步更新迭代进行求解。梯度下降法的关键在于同步和步长因子α值的调节。
α太小学习速率太慢,α太大会造成发散和无法收敛,故应采用合适的α值。对于导数项会随着接近函数局部最优值而自动逐渐变小,降低下降的速率,提升最优值的迭代精度。
由以上算法组成了线性回归算法,梯度下降算法不是唯一的解决线性回归问题的方法,正规方程组的方法也可以解决线性回归,并且有更好的泛化能力。