看完“还不了解梯度下降法?看完这篇就懂了!”这句话印象最深刻:首先梯度下降(Gradient Descent, GD),不是一个机器学习算法,而是一种基于搜索的最优化方法。梯度下降(Gradient Descent, GD)优化算法,其作用是用来对原始模型的损失函数进行优化,以便寻找到最优的参数,使得损失函数的值最小。
上一篇有关线性回归的算法中小结到 如果是多元线性回归,那就很难像平时解二元方程一样,在实际应用中只能找出“尽可能”符合的线,在此过程中引入了“最小二乘法”,即构建了一个损失函数。通过求 参数 使平方和最小。
在应用梯度下降法时,比较难理解的几点:
1、梯度下降针对的是损失函数,但损失函数不确定
找最低点
通过文章中的配图,可以理解为 先随机找“点”,然后通过对比计算后得出哪个“点”计算出的损失函数最小,如果随机点数量少不够全面,就会引起结果集不全面;
2、看到数学推导过程后,损失函数用泰勒函数进行了近似转换,然后通过对不同参数求导来解。(数学转换过程好复杂,不懂)