BP算法

假设我们知道网络输出和实际输出之间的区别,我们怎样调整网络参数使他们接近
一种代价函数形式

Paste_Image.png

一种weight decay代价函数形式

Paste_Image.png

参数如何初始化实际上是一个problem,后面会有相应讨论,这里简单的以高斯分布讨论。

修正参数的原理,只要间隔取得小,就能收敛。虽然这是非凸函数,会收敛到局部最小值,但是事实证明结果是好的。

Paste_Image.png

所以这个梯度的求法就很关键了,这里上BP(反向传播算法)

Paste_Image.png

重点来了——BP计算步骤##

1.先前向传播,this is easy
2.然后计算最后一层整体的偏差量

Paste_Image.png

3.从后往前逐层计算前一层的偏差量

Paste_Image.png

4.最后由每一层的偏差量计算W与b的梯度,此即为更新时需要用到的值

Paste_Image.png

Some trick
如何保证计算出的梯度是正确的——梯度检查

Paste_Image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容