1. 介绍
在机器视觉的问题中,经常要面对物体具有很大形变的情况。在可变形卷积v1中,引入了deformable conv和deformable RoIpooling来应对,它们对卷积和RoIpooling分布加入来offset,来使得神经网络关注真实的物体形状。
通过对引入offset后的感受野进行可视化,作者发现卷积以及pooling的采样点,采样框,在特定的物体上进行了聚集,但是这些感受野覆盖的地方并不是特别的精确,这可能导致引入了一些无关信息,作者发现这种问题在一些困难的任务中更加明显。
在这篇论文中,作者提出了可变形卷积v2,DCNv2,它有更加强大的学习可变形卷积的能力。一是,增加可变形卷积层数,二是增加了调整模块,也就是除了学习offset,还学习了一个特征缩放(也就是权重)。
2. 可变形卷积分析
2.1 Spatial Support Visualization
为了更好地理解可变形卷积,作者可视化了神经网络中节点的有效感受野,有效采样位置,以及error-bounded saliency regions。这三种形式反应了造成节点response的不同视角。
Effective receptive field 感受野里不同像素对于节点的贡献是不同的,它们贡献的不同可以通过有效感受野来表示,有效感受野是通过节点的response对图片每个像素点的intensity perturbations的梯度计算得到。
Effective sampling/bin locations 在可变形卷积v1中,作者可视化了采样点,或者采样bin,但是它们的贡献程度没有刻画出来,为此,作者在这里可视化了effective sampling/bin locations,它通过节点对不同采样点的梯度得到。
Error-bounded saliency regions 有时候直接去除图片的一些没有影响的区域,节点的值并不会改变。因此,作者定义,一个节点的支持区域为图片上能够得到error-bounded的节点值的最小区域。也就是error-bounded saliency region*。
2.2 Spatial Support of Deformable ConvNets
从左往右依次为小物体,大物体,背景。
从上往下依次为effective sampling locations, effective receptive field, and error-bounded saliency regions
普通卷积:
可变形卷积v1
可变形卷积v2(Effective sampling locations和v1类似,因此省略)
作者发现:
- 普通的卷积有一定刻画物体几何形变的能力。
- 通过引入可变形卷积,网络刻画几何形变的能力得到了加强。spatial support区域扩展到了整个物体,对于背景,也变得更大了。但是spatial support可能是不准确的
- 这三种可视化比deformable v1提出的可视化提供了更多的信息
论文中还展示了fc层的情况。
3. 更多的可变形卷积
3.1 堆叠更多的可变形卷积层
作者将resnet-50的conv3-5都的3*3卷积换成了可变形卷积
3.2 调整可变形卷积
作者在offset的基础上加了调整模块,用于决定采样点的权重,给定一个卷积的个采样位置,表示权重,表示偏置。因此,可变形卷积的结果可以表示为:
。
其中是学习到的偏置和权重。遇到小数作为偏置,采用bilinear插值。
因此,输出应该是个通道,前个表示x和y的偏置,最后个表示的就是modulation scalars,它需要sigmoid来归一化。
RoIpooling类似。
3.3 R-CNN Feature Mimicking
对于每个RoI分类节点来说,它的error-bounded saliency region会超出这个RoI。这种多余的环境信息可能对结果有害。
作者使用了feature mimicking来改善,让可变形卷积关注更集中的部分,但是不应用于背景类别。如下图
给定RoI,对应原图的区域被crop并缩放成224*224大小。然后通过和R-CNN流程,区别是RoI是整个图片,最后的两个FC得到这个patch的特征表示,用表示。用一个维的softmax分类层,另一个Feature Mimicking,用于和左边faster 得到的特征进行对比得到一个loss。公式如下:
两边的参数是共享的。