YOLOF - You Only Look One-level Feature

个人理解

1、为什么和其他anchor-based方法相比,小目标检测的表现差?
可能有两个原因:

  • Encoder模块中的Residual Blocks中的3x3依次使用dilation rates为2、4、6、8的卷积,尽管有shortcut的存在,但是仍然模型偏向于大目标,如果采用8、6、4、2是否能够缓解此问题?
  • 定义正样本时,由于anchors少了,就算K近邻的方法对不同尺度的ground-truth平衡的匹配到了positive samples,但质量不同,大目标匹配的anchor iou更大,小目标匹配的anchor,iou会小一点,因此增加小目标的预测难度,作者没有给出不同尺度的目标匹配的positive samples的平均IOU大小的数据。

简介

在单阶段检测器中FPN之所以有效是因为其分而治之的策略,而不是多尺度特征的融合。从优化的角度来看,引入了替代方法来解决该问题,而不是采用复杂的特征金字塔,仅使用一层特征进行检测。
源码:https://github.com/megvii-model/YOLOF

主要贡献

FPN在单阶段和多阶段的目标检测器中已经成为一个基础模块,FPN之所以能如此受欢迎主要可能有两点:

  • 1、多尺度特征融合:融合高分辨率和低分辨率的特征可以获得更强的表现
  • 2、分而治之:在不同大小的特征图上预测不同大小的物体。

作者为了论证以上两点,设计了四种结构:

  • 1、Multiple-in-Multiple-out (MiMo)
  • 2、Single-in-Multiple-out (SiMo)
  • 3、Multiple-in-Single-out (MiSo)
  • 4、Single-in-Single-out (SiSo)
image.png

从结果可知:没有特征融合的SiMo和原始的MiMo仅仅相差0.9 mAP,但是MiSo和SiSo的性能却大幅度下降。这个现象反应了两个事实:

  • 1、C5 特征图上的上下文信息已经足够去检测不同尺度的目标,所以SiMo的性能没有大幅度下降
  • 2、多尺度特征融合的重要性远远不如分而治之的重要性,多尺度特征融合在FPN的结构中可能不是必须的

更进一步的思考,分而治之才是目标检测问题的关键,通过目标的尺度,把复杂的问题拆分成若干子问题,简化了整个流程。

因此,作者提出了YOLOF,仅仅使用下采样32倍的C5特征图,使得SiSo的方法和MiMo的方法有相同的性能。主要贡献如下:

  • 1、发现FPN最大的收益来自于分而治之而不是多尺度特征融合。
  • 2、提出了YOLOF,新增了Dilated Encoder 和 Uniform Matching两个模块,使得SiSo的方法和MiMo的方法有相同的性能。
  • 3、大量的对比试验,和RetinaNet、DETR、YOLOv4有相当的性能,但是比它们都快。

方法

作者发现造成SiSo的方法和MiMo的方法的性能差异主要有两个问题:

  • 1、C5 特征图感受野的限制,导致检测器在目标的尺度存在巨大差异时,表现很差。
  • 2、在单尺度特征图上正样本的不平衡的问题。

1、尺度范围限制

MiMo 和 SiMo 的方法,输出了不同尺度的感受野,从而解决了多尺度目标物体检测的问题 。但是在单尺度中,C5特征图仅仅只能覆盖受限制的尺度范围,结果就是部分尺度的目标检测表现非常差。为了在SiSo方法中检测所有物体,我们需要输出单尺度特征图中包含不同的感受野。
最开始,我们通过叠加标准卷积和空洞卷积去扩大感受野,但是仍然无法覆盖所有的目标。然后,我们联合了原始尺度和扩大尺度的感受野,结果能够像多尺度感受野一样覆盖所有的目标。如下图所示,原始感受野是(a),采用空洞卷积扩大后是(b),联合后是(c)。


image.png

基于以上提到的,我们提出了Dilated Encoder,主要由两部分组成:

  • 1、Projector: 1x1卷积减少通道,3x3卷积恢复语义信息。
  • 2、Residual Blocks: 其中的3x3卷积使用不同的dilation rates。

结构图如下:


image.png

2、正样本的不平衡

在目标检测中,如何定义正样本是一个非常重要的问题。在anchor-based的目标检测方法中,定义正负样本的策略主要是通过anchors和ground-truth的IOU。在MiMo方法中,anchors会被密集的预先放置在不同尺度的特征图上,将不同尺度的ground-truth分配到不同尺度的特征图上,然后通过anchors和ground-truth的IOU进行定义,可以得到足够的正样本。但是在SiSo的方法中,anchors的数量由100K减少为5K,anchors变得非常的稀疏。在使用Max-IoU进行正负样本定义时,大尺度的ground-truth会比小尺度的ground-truth分配到更多的正样本,造成了不平衡的问题。会使得检测器关注大目标而忽略了小目标。不同正负样本定义的比较如下图:


image.png

作者提出了平衡匹配的方法,k近邻。同时忽略和ground truth IOU大于0.7的负样本,忽略IOU小于0.15的正样本。

3、YOLOF的结构

image.png

定义YOLOF由三部分组成:

  • 1、Backbone:ResNet和ResNeXt系列,C5特征图下采样32倍有2048个通道。所有的BN层均冻结。
  • 2、Encoder:1x1卷积,将通道减少为512,再接3x3卷积,然后接4个Residual Blocks,其中的3x3卷积使用不同的dilation rates。
  • 3、Decoder:借鉴了RetinaNet的结构,由classification head 和 regression head构成,有两个小改动。
    • (1)、借鉴了DETR的FFN,classification head 和 regression head有不同数量的卷积层,分别为2个和4个。
    • (2)、借鉴Autoassign,在regression head上添加了objectness预测(没有直接的监督信号)

实验

对比试验

1、对比RetinaNet

总结:速度快2.5倍但是小目标检测不如RetinaNet,大目标检测好。


image.png

2、对比DETR

总结:速度快7倍但是大目标检测不如DETR,可能是DETR可以利用全局特征。


image.png

3、对比YOLOv4

总结:速度快13%但是小目标检测不如YOLOv4,大目标远远高于YOLOv4。


image.png

消融实验

1、Dilated Encoder 和 Uniform Matching 有效性

image.png

2、ResBlock的数量

在SiSo中设置ResBlock的数量的影响


image.png

3、不同 dilations rates 的设置

image.png

4、是否添加shortcut

image.png

5、k近邻中k的取值

k的取值在大于1后就比较鲁棒


image.png

5、定义正负样本的方法比较

image.png

错误分析

和DETR进行对比,分析错误:

  • 1、localization错误更少,可能是和回归的机制相关,DETR是anchor-free的方法,并且是利用了全局的特征。
  • 2、missing更高,YOLOF基于anchor-based,recall不如DETR。


    image.png

更多的实验细节

这里不再赘述,参考论文。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,194评论 6 490
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,058评论 2 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,780评论 0 346
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,388评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,430评论 5 384
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,764评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,907评论 3 406
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,679评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,122评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,459评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,605评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,270评论 4 329
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,867评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,734评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,961评论 1 265
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,297评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,472评论 2 348

推荐阅读更多精彩内容