论文 Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression...

论文 Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression...
我的理解是,网络只有一个layer(无论conv 还是pooling)的情况下,这两种操作本质是一样的,一个是stride=1 滑动filter,另一个(即,shift and stitch) 相当于(粗体字) 反向stride=1 滑动feature map,因为stride=2,而非1,然而输出 s^2 个sub-maps stitch成一个大的output map, 所以说是"相当于"。
实际上网络在pooling层之后还有conv层,如此stack起来成为一个deep CNN,"将pooling层的stride设置为1"与 "shift and stitch" 这两种操作结果不一样,要使结果一样,则需要dilate pooling层后的所有conv层的filters。
关于FCN 论文中的 Shift-and-stitch 的详尽解释作 者: 月牙眼的楼下小黑联 系:zlf111@mail.ustc.edu.cn声 明: 欢迎转载本文中的图片或文字,请说明出处 我这三天一直思考的问题的是: 当网络最后一层...
如果可以这么理解,那么,4个 3x3 的pooled map的灰色部分其实是在origin map中的RF的中心点超出范围,即,位于origin map的zero-padding 区域内,所以认为 4个 3x3 的 pooled map 的灰色部分无效,所以stitch的时候不考虑灰色部分。
关于FCN 论文中的 Shift-and-stitch 的详尽解释作 者: 月牙眼的楼下小黑联 系:zlf111@mail.ustc.edu.cn声 明: 欢迎转载本文中的图片或文字,请说明出处 我这三天一直思考的问题的是: 当网络最后一层...
“说的很明白了,output 中的每个pixel都对应 original image 的
不同 receptive field,将receptive field 的中心c填上这个来自output的pixel值,就是网络对original image 中像素 c的prediction”
是否等价于说,output 中(i,j)的值就是origin image中(i,j)处的prediction?比如文中的2x2 Reception Field,取右下角为中心点,在第二个例子中,output 矩阵中红色7就是shifted image(0,0) 第一个2x2 RF的右下角中心点(像素值为[7])的prediction,output中黄色12是 shifted image(1,0) 第一个2x2 RF右下角中心点(像素值为[12])的prediction,接着output中红色12是shifted image(0,0)第二个2x2 RF 右下角中心点(像素值为[9])的prediction,依次类推,记 origin image 和output 大小均为wxh,可以得到 output 中(i,j)处的值就是origin image 中(i,j)处的prediction。
不知上面这个理解对不对。。。
关于FCN 论文中的 Shift-and-stitch 的详尽解释作 者: 月牙眼的楼下小黑联 系:zlf111@mail.ustc.edu.cn声 明: 欢迎转载本文中的图片或文字,请说明出处 我这三天一直思考的问题的是: 当网络最后一层...