符号说明
lr:Learning Rate,学习率
te:Training Epochs,训练迭代次数
z:变量初始化为0
t:变量初始化为标准截断正态分布的随机数
最终准确率比较
可以看到:
- 学习率为0.01,迭代次数为50次,并且采用随机初始化方式时准确率远远低于其他方式,甚至不足90%。而学习率为0.1,迭代次数为50次,并且采用随机初始化的方式时准确率最高。
- 对于采用随机初始化的方式,在其他参数相同的情况下增大迭代次数会明显的提高准确率。而对于初始化为0的情况则无明显变化。
- 其他参数相同的情况下,过度增大学习率的确是会导致准确率下降的,查看详细变化过程时可以看到准确率变化波动比较大。
-
在学习率适中,迭代次数较大时变量初始化方式对最终准确率的影响不大。
下面是我实验的内容:
1.lr=0.001 Tteration=4000 accuracy=0.6824
quick_train
2.lr=0.001 Tteration=4000+5000 accuracy=0.6824
quick_train
3.lr=0.001 Tteration=60000 accuracy=0.6824 full_train
4.lr=0.001 Tteration=60000 + lr=0.0001 Tteration=65000 accuracy=0.6824 full_train
5.lr=0.001 Tteration=60000 + lr=0.0001 Tteration=65000 + lr=0.00001 Tteration=70000
full_train