1. 为毛标准正态分布的初始化方法不太好?
2. 一种解决方法:
改变w的初始化方式,减小正态分布中的标准差,如,根据输入张量的长度n,把标准差改为1/√n。
3. 一种缓解的方法:S型函数取tanh函数可能会比sigmoid好。(只是针对中间层和输出层)
直观来看:sigmoid函数输出恒正的值,加权求和后更容易落到饱和区,而tanh输出-1~1的值,有正有负则有利与抵消,落到0附近的概率更大一些。
4. 另一种解决方法:干脆不用S型激活函数了,用ReLu这种没有饱和区的激活函数。
1. 为毛标准正态分布的初始化方法不太好?
2. 一种解决方法:
改变w的初始化方式,减小正态分布中的标准差,如,根据输入张量的长度n,把标准差改为1/√n。
3. 一种缓解的方法:S型函数取tanh函数可能会比sigmoid好。(只是针对中间层和输出层)
直观来看:sigmoid函数输出恒正的值,加权求和后更容易落到饱和区,而tanh输出-1~1的值,有正有负则有利与抵消,落到0附近的概率更大一些。
4. 另一种解决方法:干脆不用S型激活函数了,用ReLu这种没有饱和区的激活函数。