M2Det

前言

    纯属个人学习,不做商用,如有侵权请联系作者。此外也并非完全翻译,那没有意义,同时也掺杂了挺多个人的理解,不到位的可以互相交流。

    这是开源不久的单阶段目标检测器,主要工作在于特征金字塔方面,北大和达摩的作品,AAAI2019收录,论文地址:https://arxiv.org/abs/1811.04533,Github地址:https://github.com/qijiezhao/M2Det

摘要

    为了解决物体的多尺度问题,单阶段和双阶段的检测器均采用了特征金字塔结构。尽管结果感人,但仍存在一定的限制,因为它们均只是简单地使用了backbone生成的天然的多尺度特征金字塔,这些backbone是为分类任务设计的(意思是适用于分类的不一定很好的适用于检测)。本文中,为了构造更加有利于检测多尺度物体的特征金字塔架构,作者提出了多层级的FPN(MLFPN),分三步:

1. 融合backbone提取的多层特征图作为basic feature。

2. 利用TUM和FVM的模块交替生成一系列的特征金字塔。

3.利用SFAM模块将第2步生成的金字塔中的尺度相同的特征层concat起来。

将该结构称之为M2Det并集成进SSD结构。COCO数据集上,测试时单尺度下,M2Det 取得了41,0的mAP,11.8帧,多尺度下取得了 44.2的mAP,达到了SOTA的结果。

介绍

    解决尺度不变性有两个方法,第一个是传统的图像金字塔,毫无疑问费时费力,要用的话也只是在测试的时候,多尺度的测试其实也就是利用了图像金字塔。第二个就是现在流行的特征金字塔啦,图一中说明了几种风格的特征金字塔,简单说就是SSD独立地利用了最后两层地特征,并额外的构造了四个金字塔层级,FPN加入了横向和自顶向下地连接,STDN只是利用了最后一个block的特征。

作者diss图1中a,b,c三种方法的缺陷是:

1. backbone是为分类而设计的网络,提取的特征不一定适合于检测。

2. single-level information,个人理解的意思是金字塔的每一层的feature map几乎均是来自于同一层,信息单一(但是FPN也有顶层的啊,作者也没说明,不过大致应该是这个意思)

图1 特征金字塔结构比

通常意义上认为深层的特征有助于分类而浅层任务有助于回归,而且,浅层特征适合于表征外观简单的物体,而深层特征适合于表征外观复杂的物体。实际中,相同大小的物体的外观复杂度可能完全不同,比如近处的红绿灯相比于远处的人体,在现有的结构中这两者应该是在同一层级被检测到,但是这两者需要的特征语义深度是不一样的,人体需要更深的语义而红绿灯则只需要浅层的语义特征,所以有损现有的检测器的性能。

    因此本文旨在提出一个更加有效的适合于检测的特征金字塔结构。

Method

    相关工作就不说了,毕竟论文也需要凑字数。下面的才是本文的工作,也是重点。图2是整体架构图,其中FFM1,TUM,FFMv2以及SFAM均是该文提出的,以下分别介绍:


图2 M2Det架构 尺度表示特征图的分辨率,层级可以理解为语义层级,即每个尺度的金字塔均由来自于8个不同语义深度的特征组成(shallow-->medium-->deep)

1. FFMv1

见图3(a),有两个输入,来自于图2的最后两个stage的卷积层(SSD结构),1024*20*20输出512*20*20上采样得到512*40*40与256*40*40concat得到768*40*40。

2. TUM

见图3(c),U型decoder结构,输出6个尺度的特征图。有8个层级,表示有8个TUM结构,一个TUM表示一个层级。仔细一看应该是类似于FPN的那个top-down和横向连接的方式

3. FFMv2

两个输入,一个是FFMv1的输出,另一个是上一个TUM的尺度最大的输出(128,40,40),cancat一波得到256*40*40,构成当前层级的TUM的输入。

图3 (a)FFMv1 (b)FFMv2 (c)TUM

除了第一个TUM的输入是直接来自于FFMv1的输出,剩下的TUM均是来自于FFMv2的输出。而FFMv2又是来自于FFMv1和上一个TUM的输出,加入FFMv1应该是类似于残差的想法。

4. SFAM结构

由图2可知有了8个层级的TUM的输出,每个TUM均会输出6个尺度(图3c),SFAM就负责这些不同层级不同尺度的融合:对每一个尺度而言,从8个层级抽取该尺度的特征图concat到一起(128*8=1024),语义也就实现了从浅到深,再利用SE block对channel做了一个Attention。之后就得到了6个尺度的特征金字塔,金字塔的每一层均是来自于8个从浅到深的语义层级,也就是所谓的Multi-level。这就是不同于现有的金字塔的结构的地方。

图4 SFAM结构

最后再利用了两个卷积层进行分类和回归就能得到最后的结果。很明显,个人感觉8个TUM应该会引入较大的参数量,但是从结果来看却又还行,参数比retinanet要少,精度也更高。


图5 结果图对比

Discussion

    作者指出,最后结果的提升在于引入了本文提出的MLFPN,支撑点有两:

1. 得到了多尺度多层级的特征金字塔

2. 金字塔每一层有不同语义层级的特征。

说实话这不就是同一个理由嘛,就是好就好在用了多尺度多层级的特征金字塔结构。可视化激活图如下

图6 可视化激活图

这张图挺有意思的,说明一下,原图中有一大一小两人和两车以及一个红绿灯,小车小人以及红绿灯尺度相差不大,从图中可以看出来:
1. 对比与小车和小人,大车和大人在小尺度的特征图上激活值更大(原论文笔误)

2. 小人、小车和红绿灯在同一尺度上被激活(可以很直观的理解,因为尺度一致)

3. 红绿灯、小车以及小人在由浅到深的特征图上被激活(这就印证了作者的假设,由于其复杂性,相同尺度的物体需要的语义信息不一定相同

后话

    该文章还是很细致的,易懂。感觉能把FPN和本文的工作细致的区分开就更好了,FPN也是利用了多层的语义信息,但是融合却没有本文这么复杂,说明了在构造特征金字塔上仔细的研究也能取得不错的成果。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 198,322评论 5 465
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,288评论 2 375
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 145,227评论 0 327
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,015评论 1 268
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,936评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 47,534评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,995评论 3 389
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,616评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,907评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,923评论 2 315
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,741评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,525评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,016评论 3 301
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,141评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,453评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,054评论 2 343
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,249评论 2 339

推荐阅读更多精彩内容