论文原文:https://arxiv.org/pdf/1608.03981.pdf
一、简介
老实说,这篇论文后半部分不太值得细读,大量内容都是讨论实验,写的比较啰嗦。启发性的内容较少,看完后只知道你的模型效果好,但不太知道为什么好。
文章重点:
强调了residual learning(残差学习)和batch normalization(批量标准化)在图像复原中相辅相成的作用,可以在较深的网络的条件下,依然能带来快的收敛和好的性能。
文章提出DnCNN,在高斯去噪问题下,用单模型应对不同程度的高斯噪音;甚至可以用单模型应对高斯去噪、超分辨率、JPEG去锁三个领域的问题。
二、DnCNN网络模型
网络结构:
第一部分:Conv(3 * 3 * c * 64)+ReLu (c代表图片通道数)
第二部分:Conv(3 * 3 * 64 * 64)+BN(batch normalization)+ReLu
第三部分:Conv(3 * 3 * 64)
每一层都zero padding,使得每一层的输入、输出尺寸保持一致。以此防止产生人工边界(boundary artifacts)。第二部分每一层在卷积与reLU之间都加了批量标准化(batch normalization、BN)。
2.1.残差学习residual learning
DnCNN结合了ResNet的residual learning,关于ResNet的知识总结,见我另一篇文章://www.greatytc.com/p/11f1a979b384
不同的是DnCNN并非每隔两层就加一个shortcut connection,而是将网络的输出直接改成residual image(残差图片),设纯净图片为x,带噪音图片为y,假设y=x+v,则v是残差图片。即DnCNN的优化目标不是真实图片与网络输出之间的MSE(均方误差),而是真实残差图片与网络输出之间的MSE。
根据ResNet中的理论,当残差为0时,堆积层之间等价于恒等映射,而恒等映射是非常容易训练优化的。作者注意到在图像复原领域(尤其是在噪音程度较小的情况下),噪音图片与纯净图片的残差非常小,所以理论上残差学习非常适合运用到图像复原上。
通俗讲,这样的网络设计就是在隐层中将真实的图片x从原噪音图y中消去。作者注意到:在超分领域,低分辨率图片就是高分辨率图片的双三次上采样操作形成的,故超分领域的残差图片和去高斯噪声领域的残差图片是等价的,同理还有JPEG解锁领域的残差图片。也么一来,用一个模型应对三种问题便有了可能性,最终实验证明确实有效。
2.2.批量标准化batch normalization
SGD(随机梯度下降法)广泛应用于CNN的训练方法中,但是训练的性能却很大程度受内部协变量移位这一问题所影响。BN就是在每一层的非线性处理之前加入标准化、缩放、移位操作来减轻内部协变量的移位。可以给训练带来更快的速度,更好的表现,使网络对初始化变量的影响没有那么大。
内部协变量移位(internal covariate shift):深层神经网络在做非线性变换前的激活输入值,随着网络深度加深或者在训练过程中,其分布逐渐发生偏移或者变动,之所以训练收敛慢,一般是整体分布逐渐往非线性函数的取值区间的上下限两端靠近(对于Sigmoid函数来说,意味着激活输入值WU+B是大的负值或正值),所以这导致反向传播时低层神经网络的梯度消失,这是训练深层神经网络收敛越来越慢的本质原因。
批量标准化(batch normalization):就是通过一定的规范化手段,把每层神经网络任意神经元这个输入值的分布强行拉回到均值为0方差为1的标准正态分布,即把越来越偏的分布强制拉回比较标准的分布,这样使得激活输入值落在非线性函数对输入比较敏感的区域,所以输入的小变化才就会导致损失函数有较大的变化,意思就是让梯度变大,避免梯度消失问题产生,而且梯度变大意味着学习收敛速度快,能大大加快训练速度。
2.3.网络深度network depth
作者参考《Very deep convolutional networks for large-scale image recognition》的标准,将DnCNN的卷积核大小设置为3 * 3,并且去掉了所有的池化层。
感受野:是卷积神经网络中某一层输出的特征图对到网络输入图像中映射的区域的大小。
感受野计算时有下面的几个情况需要说明:
- 第一层卷积层的输出特征图像素的感受野的大小等于滤波器的大小;
- 深层卷积层的感受野大小和它之前所有层的滤波器大小和步长有关系;
- 计算感受野大小时,忽略了图像边缘的影响,即不考虑padding的大小。
此外,关于每一层的strides的说明,这个strides是之前所有层stride的乘积,即
strides(i)= stride(1) * stride(2) * ...* stride(i-1)
对于单层卷积网络,其feature map上每个特征点对应原图上的感受野大小等于卷积层滤波器的大小;对于多层卷积网络,可由此逐层往回反馈,通过反复迭代获得原始输入图像中感受野大小,即后面深层的卷积层感受野大小就和之前所有网络层的滤波器大小和步长有关系了,在计算的时候,忽略图像Padding的大小。使用的公式可以表示如下:
r(i) = (r(i+1) - 1) * stride(i) + c(i)
其中,r(i)表示第i层感受野大小,stride(i)表示第i层步长,c(i)表示第i层卷积核大小。
此外,对于卷积网络中的激活函数层(ReLU/Sigmoid/...)等,感受野迭代公式为:
r(i)=r(i+1)
对于DnCNN网络,网络层数是d的时候,网络的感受野就是(2d+1) * (2d+1)。DnCNN的感受野与网络深度d相关,而卷积神经网络中的感受野可以类比到传统去噪算法中的effective patch size。故作者参考最主流的几个去噪算法,根据2d+1=effective patch size,反向推出DnCNN一个合适的网络深度。
最终,在噪声水平为25的情况下,作者选择EPLL的36*36作为参考标准,因为EPLL的effective patch size横向比较最小(如果DnCNN选择最小的感受野都能胜过这些主流算法,就说明DnCNN很牛逼)。处理高斯去噪的DnCNN的深度为17,通用去噪任务的DnCNN的深度为20。
三、实验
作者做了三种实验:
对比有无residual learning与batch normalization对复原效果、收敛快慢的影响,最终证明这两是相辅相成的,都利用上时网络各方面性能达到最好。
根据特定程度的高斯噪声训练DnCNN-S、根据不定程度的高斯噪声训练DnCNN-B、根据不同程度的噪音(包括不同程度的高斯噪声、不同程度的低分辨率、不同程度的JPEG编码)训练的DnCNN-3来与最前沿的其他算法做对比实验。结论:DnCNN-S有最好的性能,但是DnCNN-B也有优于其他算法的性能,证明了DnCNN-B具有很好的盲去高斯噪声的能力;DnCNN-3则证明了DnCNN-3具有不俗的复原图像的泛化能力。
对比了DnCNN与其他前沿去噪算法的运行速度的实验,结论:速度还是不错的,CPU\GPU环境下均属于中上水平。
四、总结
这篇文章非常棒的公开了源码,所以后面会考虑自己复现一下。