研究深度神经网络优化稳定性,证明在一定条件下梯度下降和随机梯度下降方法能有效控制损失函数

假设F(x;w)是一个输出标量的深度神经网络,其中x是输入,w表示权重。假设F关于w连续可微,并且对于训练数据\{x_{j},y_{j}\}_{j=1}^{m}过参数化:即存在w^*使得对所有j满足F(x_{j};w^*)=y_{j}。为了研究训练神经网络时在w^*的局部优化动力学,我们考虑线性化神经网络\widehat{F}(x;w)=F(x;w^*)+(w-w^*)^{\top}\nabla F(x;w^*),其损失函数为

Loss(w):=\frac{1}{2m}\sum_{j=1}^{m}(y_{j}-\widehat{F}(x_{j};w))^{2}

s表示学习率,梯度下降法为w_{i+1}=w_{i}-s\nabla Loss(w_{i}),而随机梯度下降法为w_{i+1}=w_{i}-s(\nabla Loss(w_{i})+\epsilon_{i}),其中噪声项\mathcal{\epsilon}_{i}满足\mathbb{E}\mathcal{\epsilon}_{i}=0\mathbb{E}\mathcal{\epsilon}_{i}\mathcal{\epsilon}_{i}^{\top}=M(w_{i})/b, b是mini-batch的大小。假设协方差矩阵M

\Sigma=\frac{1}{m}\sum_{j=1}^{m}\nabla F(x_{j};w^*)\nabla F(x_{j};w^*)^{\top}

在以下意义上对齐:

\frac{Tr(M(w)\Sigma)}{2(Loss(w))^{\frac{3}{2}}\|\Sigma\|_F^2}\geq\delta

对于\delta>0和所有w成立。这里\lVert\cdot\rVert_F表示Frobenius范数。

(1) 对于梯度下降,证明如果\Sigma的谱范数满足

\lVert\Sigma\rVert_2\leq\frac{2}{s},则梯度下降是局部稳定的(即对所有t,Loss(w_t)是有界的)。(注意,这蕴含了一个依赖维度的界:\lVert\Sigma\rVert_F\leq\frac{2\sqrt{d}}{s},其中dw的维度。)

(2) 对于随机梯度下降,如果\mathbb{E}Loss(w_t)对所有t都有界,则以独立于维度的不等式必须成立:

\lVert\Sigma\rVert_F\leq\frac{\sqrt{b/\delta}}{s}

证:

(1)梯度下降的局部稳定性

我们需要证明在使用梯度下降时,损失函数\text{Loss}(w_t)是有界的。

考虑梯度下降的更新规则:w_{i+1}=w_i-s \nabla \text{Loss}(w_i)

首先,我们计算损失函数的梯度:

\nabla \text{Loss}(w) = \frac{1}{m} \sum_{j=1}^{m} \left( \widehat{F}(x_j; w)-y_j \right) \nabla \widehat{F}(x_j; w)

由于 \widehat{F}(x; w) = F(x; w^*) + (w- w^*)^\top \nabla F(x; w^*)

我们有:\nabla \widehat{F}(x_j; w) = \nabla F(x_j;w^*)

因此:

\nabla \text{Loss}(w) = \frac{1}{m} \sum_{j=1}^{m}\left( (w - w^*)^\top \nabla F(x_j; w^*) \nabla F(x j; w^*)^\top \right)

定义矩阵(\Sigmal) 为:

\Sigma = \frac{1}{m} \sum_{j=1}^{m}\nabla F(x_j;w^*) \nabla F(x_j; w^*)^\top

于是:

\nabla \text{Loss}(w) = \Sigma (w-W^*)

现在考虑梯度下降的更新:

w_{i+1} - w^* =w_j-w^*- s \nabla \text{Loss}(w_i)$$=w_i-w^*-s\Sigma(w_i-w^*)

=(l-s \Sigma) (w_i - w^*)

取范数:

\|w_{i+1} - w^*\|_2 =\|1 - s \Sigma\|_2\|w_i -w^*\|_2

由于I-s\Sigma|_2\leq 1当且仅当s \leq \frac{2}{\lambda_{\max}(\Sigma)},即\Sigma_2\leq \frac{2}{s},我们可以得到:

\|w_i -w^*\|_2\leq \|w_0 - w^*\|_2

这意味着\|w_i - w^*\|_2 是有界的,因此\text{Loss}(w_t)也是有界的。

(2)随机梯度下降的有界性

对于随机梯度下降,我们需要证明如果\mathbb{E}\text{Loss}(w_t)对所有t都有界,则必须满足独立于维度的约束\|\Sigma\|_F\leq\frac{\sqrt{b/\delta}}{s}

考虑随机梯度下降的更新规则:

w_{i+1}=w_i-s (\nabla \text{Loss}(w_i) + \epsilon_i)

其中\epsilon_i是噪声项,满足\mathbb{E}[\epsilon_i]= 0\mathbb{E}[\epsilon_i \epsilon_i^\top] = \frac{M(w_i)}{b}

我们需要分析\mathbb{E} [\text{Loss}(w_{i+1})]。令w_i-w^*=z_i。则:z {i+1}=z_i- s (\Sigma z_i+\epsilon_i)=(I-s\Sigma)zi-s\epsilon_i

取范数的平方并取期望:

\mathbb{E}[\|z_{i+1}\|_2^2] = \mathbb{E}[\|(l- s\Sigma)z_i- s \epsilon-i\_2^2]

= \mathbb{E}[\|(1 -s \Sigma)z_i\_2^2]+ s^2\mathbb{E}[\|\epsilon_i\|_2^2]

由于\epsilon_i的协方差为\frac{M(w_i)}{b}。我们有:

\mathbb{E}[\|\epsilon_i\|_2^2] = \text{Tr}\left(\frac{M(w_i)}{b}\right)

并且:

\mathbb{E}[\|z_{i+1}\|_2^2]=\|I - s \Sigma\|_2^2\mathbb{E}[\|z_i\|_2^2] +\frac{s^2}{b} \text{Tr}(M(w_i))

为了确保\mathbb{E}[\|z_i\|_2^2]的有界性,我们需要:\|I- s \Sigma\|_2^2\leq 1

即:

\|\Sigma\|_2\leq \frac{2}{s}

并且我们需要控制噪声项:

\frac{s^2}{b} \text{Tr}(M(w_i)) \leq C

根据题目中的对齐条件:

\frac{\text{Tr}(M(w) \Sigma)}{2 (\text{Loss}(w))^{3/2}\|\Sigma\|_F^2}\geq \delta

我们有:

\text{Tr}(M(w) \Sigma) \geq 2 \delta (\text{Loss}(w))^{3/2}\Sigma\|_F^2

由于\text{Tr}(M(w)) = \text{Tr}(M(w) l)\leq \|\Sigma\|_2 \text{Tr}(M(w)),我们有:\text{Tr}(M(w)) \leq \frac{\text{Tr}(M(w) \Sigma)}{\|\Sigma\|_2}

因此:

\text{Tr}(M(w)) \leq \frac{2 \delta (\text{Loss}(w))^{3/2} \|\Sigma\|_F^2}{\|\Sigma\|_2}

为了确保\mathbb{E}[\text{Loss}(w_t)]有界,我们需要满足:

\frac{s^2}{b} \cdot \frac{2 \delta (\text{Loss}(w))^{3/2}\|\Sigma\|_F^2}{\|\Sigma\|_2}\leq C

简化并得出:

\|\Sigma\|_F \leq \frac{\sqrt{b/\delta}}{s}

综上,我们得到了独立于维度的界,这证明了随机梯度下降的有界性条件。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容