经典目标检测网络学习

零、目标检测

目前目标检测的相关方法大致分为两种,一种是one-stage,另一种是two-stage,后者是先生成候选框,然后对候选框进行分类,前者是不生成候选框,直接将目标边框定位转化为回归问题。前者的速度快,而后者的精度高。

一、RCNN

算法总共可分为四个阶段,一是候选区域生成,即先将图片分割成许多个小块,在利用一些规则进行合并,最终可得到2k个左右的候选区域;二是CNN特征提取,由于需要固定尺寸的输入,因此需要对候选区域进行裁剪填充,最终得到了一些特征向量;三是经过SVM进行分类,得到目标的bounding box;四是位置修正。

二、SPP

可忽略图片的尺寸,生成同样大小的特征向量,原理图如下:


三、Faster RCNN

1. 网络思想:

将目标检测分成了两步,第一步是实现定位,第二步则是实现分类,网络结构如下所示:

网络结构

2.网络结构:

网络共有四部分构成:

1)卷积层:卷积层采用了VGG16的结构,值得注意的是,在卷积过程中,卷积操作并不改变特征图大小,尺寸的减小由池化层来操作。

2)区域建议网络:区域建议网络结构如下所示:

区域建议网络

这一部分结构即能够完成定位。首先输入经过1\times 1卷积通道数变为18,这是因为通常特征图上一个点会生成9个anchor,这些box里面或许存在目标,或许没有目标,因此总共会有18个类别,之后经过softmax进行分类找到含有目标的anchor,前后两个reshape操作是为了便于分类。此时虽然已经得到了一些anchor,但它们的位置并不准确,因此需要做一定的修改。这里文章定义了四个变换,分别是:G_x^\prime  = {A_w} \cdot {d_x}(A) + {A_x}

G_y^\prime  = {A_h} \cdot {d_y}(A) + {A_y}

G_h^\prime  = {A_h} \cdot \exp ({d_h}(A))

G_w^\prime  = {A_w} \cdot \exp ({d_w}(A))

下面的支路需要学习{d_x}(A),{d_y}(A),{d_w}(A),{d_h}(A)四个变换,因此生成了4*9=36个通道。之后,建议层利用生成的anchor与修正函数,将坐标映射到原图上,利用非极大值抑制等操作丢弃掉一些不合适的box,至此,定位工作基本完成。

3)RoI pooling:之后需要将每个box里的目标送进分类网络中进行分类,但由于每个box大小不一,直接送进网络中肯定不行,所以这里采用了如下的池化操作,这样就可以送进网络进行分类:

RoI池化

4)分类网络:这里只是使用网络进行了分类,需要的注意的是这里又进行了一次回归操作,来进一步修正坐标值:

分类网络

四、Yolo

1. 网络思想:

与Faster RCNN不同,Yolo将目标的检测直接看成一个回归问题,在回归的过程中直接完成了定位与分类,因此速度要快一些。

2.网络结构:

网络结构如下所示:

网络结构

网络借鉴了goolgnet网络但并没有使用inception模块,而是主要使用了1*1卷积与3*3卷积的简单替代,网络完成回归主要靠的是后面的全连接层。网络检测理论如下:

yolo理论

将图片划分成大小相同的格子,只要目标落在格子中,格子就负责检测那个目标,除此之外,每个格子还会生成一些bounding box,假设每个格子预测了C个类别概率,B个box,除了生成每个box的x,y,w,h外,还会生成一个分数,即sore=Pre*IOU,即每个格子有C+B*5个输出。得到生成的bounding box之后,再设定阈值去掉sore较小的box,利用非极大值抑制得到最终的box。值得一提的是,为了更好的生成坐标,这里的x,y,h,w全部做了归一化操作。

由于v1虽然速度够快,但定位不够准确,因此v2对v1做了一些改进,如下:

1)使用了BN层,去除了dropout,这样可以使得网络更容易收敛,且可以防止过拟合。

2)采用了更高的分辨率分类器,先用高分辨率的Imagenet分类数据集图片进行训练,再进行微调。

3)移除了全连接层,使用anchor来进行训练,每个预测框都有其对应的类概率,而且anchor是通过k-means的方式生成。

YOLO9000是在YOLOv2的基础上提出的,其可以检测超过9000个类别的模型,其主要贡献点在于提出了一种分类和检测的联合训练策略。

v3的改进是将特征提取器换成了残差结构,并且采用了FPN的结构来应付多尺度问题,这里借鉴一下yolo系列之yolo v3【深度解析】_网络_木盏-CSDN博客中的结构图用于展示:

五、SSD

1.网络思想:

SSD与Yolo一样,都是一次直接完成分类与定位,与Yolo相比其不同点是SSD是利用卷积做检测,同时考虑了多尺度问题以及利用了先验框,结构如下所示:

SSD

2.网络设计:

1)先验框的生成:特征图每个点生成四个先验框,共有两个正方形两个矩形,如下所示:

每个特征图对应先验框设置如下:{s_k} = {s_{\min }} + \frac{{{s_{\max }} - {s_{\min }}}}{{m - 1}}(k - 1),可见,随着卷积层的增加,先验框尺寸增大,这方便使用大尺寸的特征图检测小目标,小尺寸的特征图检测大目标。

2)先验框的使用:

如图所示,卷积之后的结果,一路进行先验框的分类,一路生成用于回归的偏移量,一路生成先验框的坐标。

3)训练:在训练过程中,首先进行先验框的匹配,即与ground truth的IOU较大的先验框匹配,对于剩余的先验框,若与ground truth的IOU大于某个阈值,也认为匹配。

其他:

1、OHEM:

对于目标检测来说,其难度远远大于普通的目标分类,因为无法确定一张图片中目标的数量。为了保证召回率,一般常常采取一种“宁可错杀三千,不可放过一个”的思想,因此,常常会输出许多无用的检测框,这样就会造成负类过多,而正类跟难负类较少,因此需要提出一种方法来减少这些负类,同时学会区分这些难负类。RCNN采取的方法是先用初始的正负样本(为了样本平衡,负样本是整个负样本的子集)来训练分类器,之后使用分类器对样本进行分类,将分类错误的样本放入负样本中,再次进行训练,循环往复,直到分类器性能不再提升,FAST RCNN则是通过随机采样,其中25%是正类,其余为负类进行训练。OHEM则是将对于难负类样本的挖掘嵌入到了优化中,通过损失来选取合适的区域进行训练,其使用了两个RCNN网络进行训练,其中一个只负责前向传播,为网络提供RoI区域的评分,另一个网络根据这个评分选取难例进行训练,两个网络参数共享。

2、目标检测中的不平衡问题:

1)多任务损失优化之间的不平衡:由于分类任务要对正负样本进行分类,而回归任务只需要对正样本进行回归,因此这里有一个不平衡的问题,可采用加权的方式解决。

2)空面不平衡:指的是不同正例对回归损失的贡献是不一致的,不同的IOU的贡献也是不一致的。

3)尺度不平衡:即不同检测框尺度上的不平衡,网络很可能倾向于生成某一个尺度的检测框,解决方法大多是金字塔方法。

4)类别不平衡:即分类类别的不平衡,或者是目标与背景类的不平衡,解决方法是有偏采样,或者是采用某些损失函数,例如焦点损失函数。

3、不同检测网络对比:

FasterRCNN网络特点是检测较为精确,这主要得益于RPN网络,对特征图上的每个特征点都生成一定数量的候选框,总共大约会生成20k个,经过非极大值抑制会剩下大约300个,在这个过程中还要进行位置的修正,最终的结果较为精确,但代价就是速度慢。Yolo是one-stage的网络,将检测问题转换为了回归问题,其将图片暴力的划分成了7*7的网格,每个格子同时输出类别与位置坐标,结果不如FasterRCNN精确,但速度较快;SSD像是结合了FasterRCNN的优点,其利用了多尺度的特征图来检测目标,借鉴了候选框的机制,但是使用了yolo的模式来生成候选框。

4、nms、softnms、softernms对比:

对于nms来说,当两个候选框交集大于阈值的时候,就会消去其中一个得分较低的框,但当两个目标靠的非常近的时候可能就会出现漏检;softnms可以减轻这种情况,当出现阈值过小的时候,softnms不会粗暴的直接消去框,而是给出一个较低的得分,再通过对分数设定阈值来决定保留的候选框,nms的公式可以如下表示:

{s_i} = \left\{ {\begin{array}{*{20}{c}}{{s_{i,}}}&{iou(M,{b_i}) < {N_t}}\\{0,}&{iou(M,{b_i}) \ge {N_t}}\end{array}} \right.

而softnms则是表示如下:

{s_i} = \left\{ {\begin{array}{*{20}{c}}{{s_{i,}}}&{iou(M,{b_i}) < {N_t}}\\{{s_i}(1 - iou(M,{b_i})),}&{iou(M,{b_i}) \ge {N_t}}\end{array}} \right.

由于以上形式不连续,所以将关于iou的函数变为以下形式:{s_i} = {s_i}{e^{ - \frac{{iou{{(M,{b_i})}^2}}}{\sigma }}}

然后,以上两种方法没有考虑位置的准确性,所以出现了softernms,其假设候选框服从高斯分布,真实位置服从狄拉克分布,通过kl散度来使得候选框尽可能准确。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,718评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,683评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,207评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,755评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,862评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,050评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,136评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,882评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,330评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,651评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,789评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,477评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,135评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,864评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,099评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,598评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,697评论 2 351