第六类:空洞卷积和DeepLab系列
空洞卷积,为卷积层引入了另一个参数—扩张率。
感受野:CNN中,某一层输出结果中一个元素所对应的输入层的区域大小.。越大的感受野包含越多的上下文关系。
空洞卷积,在标准的的卷积核里注入空洞,正常的卷积核中dialate rate=1
背景:FCN都是通过pooling和upsample,会损失一些信息,就在想能不能不通过pooling也可以获得较大的感受野看到更多的信息,因此答案就是dialate conv
最大的好处:(ex:dialate=2是每隔一个像素位置应用一个卷积元素,虽然可以看到卷积内核大小只有3*3,实际上这个卷积感受野已经增大到7*7。仅仅使用9个参数,不做pooling的情况下,让每个卷积输出都包含较大范围的信息,这样及降低了成本同时还扩大了感受野)
DeepLab 系列
主要针对深度卷积神经网络的两个问题:1.pooling操作使图片尺寸变小,2.pooling输入小变化的不变性。
DeepLab系列是结合了深度卷积网络(DCNNS)和概率图模型(DenseCRFS)
空洞卷积扩大感受野+CRF尝试找到图像像素之间的关系 : 相近的像素大概率为同一标签。(简单来说,对一个像素进行分类的时候,不仅考虑DCNN的输出,而且考虑该像素点周围像素点的值,这样语言分割结果边界更清楚)
v2:提出了空洞空间金字塔池化(atrous spatial pyramid pooling, ASPP),使用多个采样率采样得到的多尺度分割对象获得了更好的分割效果。
(由于DCNN连续的池化和下采样造成的分辨率降低)最后的两个池化层去掉了下采样并且后续卷积层的卷积核改为了空洞卷积,拓展了感受野,获取更多的语境信息。
基础层使用了resnet。使用不同的学习率策略。
v3:增强ASPP模块(1个1*1conv,3个3*3conv,包含全剧平均池化)。
复制resnet最后的block级联起来,加入BN。没有使用CRFs
所有分支得到的结果concate起来通过1×1卷积之后得到最终结果。
v3+:ASPP方法的优点是该种结构可以提取比较dense的特征,因为参考了不同尺度的feature,并且atrous convolution的使用加强了提取dense特征的能力。
但是在该种方法中由于pooling和有stride的conv的存在,使得分割目标的边界信息丢失严重。
Encoder-Decoder方法的decoder中就可以起到修复尖锐物体边界的作用。
第七类:基于递归神经网路的模型
尽管cnn在处理计算机视觉问题时是非常有优秀的解决方案,但是并不是唯一的,引出了以rnn为基础的DL模型。
renet
因为作者认为cnn当中的conv+pooling会使图像信息丢失严重,因此作者使用rnn来避免这种操作。
每个renet层含有四个rnn他们在两个方向上水平和垂直来扫描图像,用这个renet层替换掉pooling+conv,通过前一层的fp,进行这四个方向的扫描完成特征学习的过程。
reseg model
第一步:从网络的结构我们可以看出来,reseg应用了3次串联的renet模块,空间分辨率在不断减小,为了将vgg16提取出来的特征进一步处理,从而得到对输入图像更复杂的特征描述。
第二部:在特征提取后,fp的空间分辨率下降到八分之一,采用了由若干层反卷积组成的上采样层,恢复分辨率
第三步:最后简单的应用softmax来实现segmentation
第八类:注意力机制
深度学习的注意力机制和人类的注意力本质上是一个意思,核心目标也是从公众信息中选择出对当前任务更加关键的信息;在数学公式和代码实现就是attention可以理解为加权求和
chen提出了一种多尺度图像和注意力机制相结合(学习在每个像素位置对多尺度特征进行加权求和)。注意力机制是要优于平均和最大池化,该模型能够评估不同位置和尺度特征的重要性。
RAN(反向注意力机制)框架:本文提出了一种使用反向注意机制的语义分割方法。RAN是一个三分支的网络,它同时执行直接注意和反向注意学习过程。最上分支,学习的是像素不属于各个类别的概率分布;最下分支,学习的是pixel属于各个类别的概率分布;中间reverse attention 分支,学习的是某个类别和不是某个类别概率的Feature之间结合的权重(从原始预测中直接减去反向预测)。最终下分支与reverse attention 分支融合后的Feature进行预测分割
主要作用:为了提高对类别混合区域的目标分割精度,提高混合区域分割 的准确率。
Li提出将注意力机制与空间金字塔相结合,来提取精确的密集特征进行像素标记,而不是复杂的放大卷板机换个人工设计的解码器网络。
Fu提出了用于场景分割的双注意网络,基于自注意力机制,能够捕捉丰富的上下文信息,添加了两个注意力模块(position attention moudle和channel attention moudle)
OCNet EMANet CCNet DFN
第九类:基于GAN的模型
CNN的分割网络可以用于GAN的生成器,所以只需要设计对抗网络,设计Loss。对抗网络也可以用于来源于已经提出的卷积网络模型。
框架:生成器输入RGB图像,生成器是分割网络,用于逐像素分类预测,输出分类预测图。对抗网络将分割结果 / GroundTruth二值图 和原图进行了相乘,得到的结果做为输入,最终输出sigmoid二分类结果。
第十类:卷积模型于活动轮廓模型
近年来,FCNs与活动轮廓模型(ACMs)[7]之间协同作用的探索引起了人们的广泛关注。一种方法是根据ACM原理建立新的损失函数。一种不同的方法最初只是试图利用ACM作为FCN输出的后处理器,一些努力试图通过预先训练FCN来进行适度的协同学习。