梯度消失/梯度爆炸
主要出现在sigmoid函数中,靠近输出层的hidden layer 梯度大,参数更新快,所以很快就会收敛;
而靠近输入层的hidden layer 梯度小,参数更新慢,几乎就和初始状态一样,随机分布。
在上面的四层隐藏层网络结构中,第一层比第四层慢了接近100倍!!
这种现象就是梯度弥散(vanishing gradient problem)。而在另一种情况中,前面layer的梯度通过训练变大,而后面layer的梯度指数级增大,这种现象又叫做梯度爆炸(exploding gradient problem)。
总的来说,就是在这个深度网络中,梯度相当不稳定(unstable)。
gradient vanishing.png
原因
考虑原因,之前处于被送入到sigmoid后就成了
,响应的参数变化就会很大。
解决办法
使用其他激活函数,例如ReLu,Maxout
ReLu.png
Maxout.png