假设是一个输出标量的深度神经网络,其中
是输入,
表示权重。假设
关于
连续可微,并且对于训练数据
过参数化:即存在
使得对所有
满足
。为了研究训练神经网络时在
的局部优化动力学,我们考虑线性化神经网络
,其损失函数为
。
令表示学习率,梯度下降法为
,而随机梯度下降法为
,其中噪声项
满足
和
,
是mini-batch的大小。假设协方差矩阵
与
在以下意义上对齐:
,
对于和所有
成立。这里
表示Frobenius范数。
(1) 对于梯度下降,证明如果的谱范数满足
则梯度下降是局部稳定的(即对所有t,Loss
是有界的)。(注意,这蕴含了一个依赖维度的界:
,其中
是
的维度。)
(2) 对于随机梯度下降,如果对所有
都有界,则以独立于维度的不等式必须成立:
。
证:
(1)梯度下降的局部稳定性
我们需要证明在使用梯度下降时,损失函数是有界的。
考虑梯度下降的更新规则:
首先,我们计算损失函数的梯度:
由于 。
我们有:
因此:
定义矩阵(\Sigmal) 为:
于是:
现在考虑梯度下降的更新:
取范数:
由于当且仅当
,即
,我们可以得到:
这意味着 是有界的,因此
也是有界的。
(2)随机梯度下降的有界性
对于随机梯度下降,我们需要证明如果对所有
都有界,则必须满足独立于维度的约束
。
考虑随机梯度下降的更新规则:
其中是噪声项,满足
和
。
我们需要分析。令
。则:
取范数的平方并取期望:
由于的协方差为
。我们有:
并且:
为了确保的有界性,我们需要:
即:
并且我们需要控制噪声项:
根据题目中的对齐条件:
我们有:
由于,我们有:
因此:
为了确保有界,我们需要满足:
简化并得出:
综上,我们得到了独立于维度的界,这证明了随机梯度下降的有界性条件。