理解YOLO,You Only Look Once: Unified, Real-Time Object Detection

摘要:

将目标检测制定为一个回归问题,基于一个单独的end-to-end网络,完成从原始图像到题位置和类别的输出。

一、引入

相对传统的目标检测方法,YOLO有几个方面的优点。

  1. 速度非常快,将整个检测框架作为一个回归问题,不许哟啊复杂的管道。基础网络处理速度,每秒45fps,Titan X GPU,可以处理实时视频序列。
  2. Yolo 在训练和测试时可以看到整张图片,所以它隐式地编码了目标类别及其外观的上下文信息。
  3. Yolo 学习目标的广义(概括性的,普遍性的)表示。

二、联合检测Unified detection

Yolo 使用整张图片的特征来预测每一个回归框。这意味着我们的网络全局的理解整张网络和网络中的对象。
把整张图片分成SxS个的网格,如果一个目标的中心落入到一个网格内,这个网格负责检测这个目标。每个网格预测B个回归框和回归框的置信分数。

置信分数计算定义:
Pr(Object)*IOU\frac{truth}{pred}

每一个回归框包括五个预测值,x,y,w,h和置信分数。
每个网格单元还预测C个附条件类的概率。每一个网格只预测一组分类概率。

最后在测试阶段,将附加类别概率与单个框的分数预测,反映出每个框所属类别的概率和预测框框选出目标的程度。

2.1 网络设计

受到google的inception 模块的启发,在3x3卷积层之后用1x1的reduction层,Yolo 网络包含24个卷积层和两个全联接层。Fast Yolo包含9个卷积层,每一层的滤波器更少。

2.2 训练

作者通过图像宽度和高度将边界框的宽度和高度标准化,使它们落在0和1之间。将边界框x和y坐标参数化为特定网格单元位置的偏移,因此它们也在0和1之间。

使用和平方差,因为优化简单,但是他不能很好的符合最大化平均精度的目标。这会权衡定位误差和分类误差一样重要。但实际上这是不理想的。

为了补偿这种状况,增加回归框坐标预测的损失,减小不包含目标的置信度预测的损失。

每个网格会得到多个回归框。作者根据哪个预测具有最高当前IOU和基础事实,将一个预测器指定为“负责”以预测对象。

作者在2007年和2012年的PA S C A L VOC训练和验证数据集上训练了大约135个周期。在2012年进行测试时,我们还包括用于训练的VOC 2007测试数据。在整个培训过程中,我们使用的batchsize为64,动量为0.9,衰减为0.0005。

在第一轮训练中,从10^{-3}10^{-2}慢慢增长学习率。75个epoches用10^{-2}的学习率,然后接着30个epoches用10^{-3}的学习率,最后30个epoches用10^{-4}的学习率。

为避免过拟合,使用dropout和数据扩充。在第一个连接层之后,速率= 0.5的dropout层防止了层之间的共同适应。
对于数据增强,作者引入了高达原始图像大小的20%的随机缩放和翻译。作者还在HSV颜色空间中随机调整图像的曝光和饱和度达1.5倍。

2.3 推断

YOLO在测试时非常快,因为它只需要一次网络评估,不像基于分类器的方法(先完成检测,再完成分类)。

非极大抑制可以修正多检测。

2.4 YOLO 的限制

YOLO对边界框预测施加了强烈的空间约束,因为每个网格单元只预测两个框,并且只能有一个类。此空间约束限制了模型可以预测的附近对象的数量。YOLO 很难识别群体中的小目标,例如鸟群。

因为模型是从数据中学习去预测回归框,因此很难在新的或者不寻常的高宽比或者配置中归纳出目标。

我们的模型还使用相对粗略的特征来预测边界框,因为我们的体系结构具有来自输入图像的多个下采样层。

错误的主要来源是不正确的定位。

3. 算法对比

检测流水线开始要从图片中提取一组鲁棒性的特征(Haar,SIFT,HOG,卷积特征),然后分类器或者定位器在特征空间中识别目标。这些分类器或定位器可以在整个图像上以滑动窗口方式运行,也可以在图像中的某些区域子集上运行。

DMP(Deformable parts models)使用不相交的流水线提取特征,区域分类,预测回归框,每个模块分离。YOLO用一个卷积神经网络替代这些分离的模块。网络不是用静态特征,而是在线训练功能并针对检测任务对其进行优化。

YOLO是一种通用探测器,可以学习同时探测各种物体。

4. 实验

首先在Pascal VOC2017上,比较了其他实时监测器。比较了YOLO和Fast R-CNN的误差。基于不同的错误配置文件,显示YOLO可用于重新调整快速R-CNN检测并减少背景误报的错误,从而显着提升性能。

在VOC2012上与最佳的检测器比较了mAP。最后展示了,在两个艺术作品数据集上,YOLO相比其他的检测器更好的推广到新领域。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,951评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,606评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,601评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,478评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,565评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,587评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,590评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,337评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,785评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,096评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,273评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,935评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,578评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,199评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,440评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,163评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,133评论 2 352

推荐阅读更多精彩内容