一、损失函数
损失函数,用来衡量预测值和真实值之间的区别。
1、均方损失(L2 Loss)
横坐标应该是y-y'。蓝色曲线是:真实值y不变时,变化预测值y'的曲线,是一个二次函数。绿色是它的似然函数,是一个高斯分布。橙色线是损失函数的梯度,是个过原点的直线。
箭头长度是下降的快不快。图中可以看出L2 Loss损失函数的特点,当离极值点较远的时候,其以较大的梯度绝对值下降;当靠近我们的极值点时它的梯度变得很小。当然也有它不足的地方,就是当离极值点很远的时候,它的梯度很大,离原点较远的时候,我们可能不需要那么大的梯度。
最小化损失,等价于最大化似然函数
2、绝对值损失函数(L1 Loss)
这个损失函数的特点是,当预测值跟真实值较远时,不管多远,梯度永远是常数,就断隔得很远,权重更新也不会特别大,会带来一些稳定性上的好处。缺点是零点处不可导;还有梯度在-1和1之间的剧烈变化,这个不平滑性,导致优化末期不太稳定。
3、Huber's Robust Loss
结合L1 Loss和L2 Loss的好处。
二、激活函数
激活函数的本质就是把线性变成非线性。
(1)sigmoid激活函数
(2)Tanh函数
(3)ReLU激活函数
最常用的。(其实效果差不多,但是算起来很快,不用进行指数运算)