1 参数泛数惩罚
1.1. 参数正则化
通常被称为权重衰减的 参数泛数惩罚。这个正则化策略通过向目标函数添加一个正则项,使权重更接近原点。
只有在显著减小目标函数方向上的参数会保留的相对完好。对于无助于目标函数见效的方向(对应Hessian矩阵较小的特征值)上改变参数不会显著增加梯度,这种不重要方向上对应的分量会在训练过程中因正则化而衰减掉。
正则化能让学习算法感知到具有较高方差的输入x,因此与输出目标的协方差较小(也就是相关性不大)的特征的权重将会收缩。
1.2.参数正则化
为各个参数的绝对值之和,其定义如下:
相比正则化,正则化会产生更稀疏的解。此处稀疏性是指的是最优值中的一些参数为0。由正则化导出的稀疏性质已经被广泛地用于特征选择机制。
2 作为约束的范数惩罚
在4.4节中,构造广义的拉格朗日函数来最小化带约束的函数,即在原始的目标函数上添加一系列的惩罚项,如果我们想约束小于k,则拉格朗日函数可以写成:
要优化(调整)的参数:θ和α,θ也就是,α是权重衰减系数,α在>k时必须增加,在<k时必须减小。所有正值的α都鼓励收缩。最优值也鼓励收缩,但不会强到使得小于k。
如果是一个范数,则权重被限制在一个球里面;如果是一个范数,则权重被限制在一个范数限制的区域中。
显式约束和投影:
对于每一个不同的α,都寻找与此对应的k,文中的方法时:先计算的下降步,然后将θ投影到满足的最近点。
好处:1.惩罚可能会导致目标函数非凸,从而陷入局部极小值。2.重投影的显示约束使优化过程增加了一定的稳定性。
Frobenius范数: