1.多变量线性回归
在第一周的房价和房屋面积的例子中,由于变量只有一个—面积,所以这类机器学习问题称为单变量线性回归,很明显,当变量数量>1时,即为多变量线性回归
2.多维特征
现在,假设除了房屋面积外,又增加了房屋数量、楼层、房屋年龄等特征,则此模型即变为了多变量的模型,模型的特征为:则相应的多维的假设函数为:
为了方便,此时引入
简化一下,假设函数可以简化成:
其中,特征矩阵的维度是 代表特征矩阵的转置
3.多变量梯度下降
多变量线性回归的损失函数/代价函数和之前的单变量线性回归类似,用到的还是平均损失函数,只是变量维度多了
其中:
我们的目标和单变量线性回归问题中一样,是要找出使得代价函数最小的一系列参数。
多变量线性回归的批量梯度下降算法为:Repeat { }即:Repeat { }
求导后得到:Repeat {
for (j = 0,1,2...n)
}
特征维度>1时(n>1)有:
开始随机选择一系列参数值,计算所有预测结果,再给所有参数一个新的值,如此循环直到收敛,即损失函数局部最小值。代码示例:
def computeCost(X, y, theta):
inner = np.power(((X * theta.T) - y), 2)
return np.sum(inner) / (2* len(X))
4.特征缩放
还是以房子为例,多变量线性回归模型中,房价不仅取决于房屋面积这个特征,还取决于房屋数量这个特征。
这两个特征的范围分别为:
面积:0~2000平方英尺
房屋数量:0~5
对x1特征,只需除以2000,对x2特征,除以5。即可使得特征值范围属于0~1
5.学习率
梯度下降算法收敛所需要的迭代次数根据模型的不同而不同,我们不能提前预知,我们可以绘制迭代次数和代价函数的图表来观测算法在何时趋于收敛。
如下图所示:
有一些自动测试是否收敛的方法,例如将代价函数的变化值与某个阀值(例如 0.001)
进行比较,但通常看上面这样的图表更好。
梯度下降算法的每次迭代受到学习率的影响,如果学习率𝑎过小,则达到收敛所需的迭代次数会非常高;如果学习率𝑎过大,每次迭代可能不会减小代价函数,可能会越过局部最小值导致无法收敛。
通常可以考虑尝试这些学习率: 𝛼 = 0.01,0.03,0.1,0.3,1,3,10