MOT综述:《Multiple Object Tracking: A Literature Review》

原文链接 参考博文
每年都会更新,最新版本是v4(2017年5月),文章中介绍的方法都是2017年以前的方法


摘要

目标重叠、外观剧变等问题仍然是它所面临的重大挑战。[^1]

本文的主要贡献点如下四条:
1)多目标跟踪系统的关键方向,包括公式(formulation),分类(categorization),关键原则(key principles),以及测评(evaluation);
2)根据现有技术所属的不同方向来进行讨论,再将每个方向的方法划分为成组,然后对组内方法的原则、优缺点进行讨论;
3)检验现有公开的实验并且总结在主流数据集上的实验结果,再进行量化地对比,与此同时指出分析中发现的几个有趣的问题;
4)提供在MOT研究中会遇到的问题的讨论,以及可能在以后的工作中会出现的潜在可研究方向。


1.介绍

MOT or MTT主要任务是在给定视频中同时对多个感兴趣的目标进行定位,并且维持他们的ID、记录他们的轨迹。
单目标跟踪(Single Object Tracking, SOT)主要集中在设计复杂的外观模型和/或运动模式,解决具有挑战性的问题如尺度变化,出平面旋转和光照变化,而多目标跟踪还有额外的两个任务需要解决:确定目标的数量(通常随时间变化),和维持各自的ID
除了SOT和MOT的共同问题外,MOT还需要处理更复杂的关键问题包括:1)频繁遮挡;2)轨道初始化和终止;3)相似的外观;4)多目标间的相互影响。


2.MOT 问题

2.1 公式

多目标跟踪可以认为是多变量估计问题
多目标跟踪的目的是找到所有目标“最好的”状态序列
基于概率预测方面的,基于决策优化方面的

2.2 分类

2.2.1 初始化方法

  • DBT(Detection-Based Tracking):首先检测目标,然后链接到轨迹中。可以自动发现新目标、自动终止消失的目标

有两个问题值得注意:
第一,由于提前训练目标检测器,DBT大部分关注特定的目标类型,如行人、车辆或人脸。
第二,DBT的性能非常依赖于所采用的目标检测器的性能。

  • DFT(Detection-Free Tracking):需要在第一帧手动初始化一定数量的目标,然后在后续帧定位这些物体。


2.2.2 处理模式

  • Online跟踪:图像序列是一步步处理的因此该跟踪方式也称序列跟踪。
  • Offline跟踪:利用一组帧来处理数据。由于计算复杂度和内存限制,不总是一次性处理所有帧,而是考虑将数据分成几个短一点的视频,对于每组分层或顺序处理得到结果。


2.2.3 输出类型

这个标准根据输出的随机性将MOT方法分成基于决策的和基于概率的


3.MOT 组成

在设计MOT算法的时候有两个问题需要考虑:一个是怎样测量帧内目标的相似性,另一个是基于这个相似性怎样判断帧间目标是否相同。前者主要包括外观,运动,交叉,排斥和碰撞的建模问题,后者主要和数据关联有关。

3.1 外观模型

3.2 运动模型

3.3 交互模型

3.4 排斥模型

3.5 遮挡处理

3.6 预测


4. MOT评估

4.1 指标

  • 检测指标
    精准度(Accuracy)、精度(Precision)
  • 跟踪指标
    精准度(Accuracy)、精度(Precision)、完整性(Completeness)、鲁棒性(Robustness)

4.2 数据集

4.3 公开算法

4.4 基准结果


5. 总结

5.1 存在的问题

  • MOT方法的性能在很大程度上取决于目标检测器
    某些方法在特定视频序列中表现良好,然而当在应用于其他视频下时,它们可能不会产生令人满意的结果,这可能是因为该方法所使用的目标检测器是在特定的视频中被训练的,因此不能很好地泛化使用在其他视频序列中。
  • 在提出MOT解决方法时,一个算法越复杂,就有越多的参数,这就使调参非常困难。其他人也很难实现这种方法并且重现结果。

5.2 未来的方向

MOT under multiple cameras:多摄像头的配置有两类:第一个是多摄像头记录同一个场景,即多视角。然而,这个设置的关键问题是如何融合来自多个摄像机的信息。第二个是每个摄像机记录一个不同的场景,即一个不重叠的多摄像机网络。在这时,多摄像头间的数据关联就成为了一个再识别(reidentification)问题。
MOT with scene understanding:拥挤场景下,例如在高峰时期的地铁车站和公共场所的游行示威。在这种情况下,大多数目标是小的和/或被大面积遮挡的,因此很难进行跟踪。场景理解的分析结果可以提供上下文信息和场景结构,如果将其更好地融入到MOT算法中,将有助于跟踪问题的解决。
MOT with deep learning:深度学习模型已成为处理各种视觉问题的非常强大的框架,包括图像分类(如:CNN图像分类),目标检测(如:Faster R-CNNYoloSSD),单目标跟踪(SOT)。对于MOT问题,深度学习模型提供的强大的目标检测模型可以显著提高跟踪性能。尽管最近已经开始尝试使用连续神经网络进行在线MOT,但关于使用深度神经网络来进行目标关联问题的formulation和建模仍需要投入更多的研究。
MOT with other computer vision tasks :虽然多目标跟踪是服务于其他高层次的计算机视觉任务,但也存在这样的趋势:将一些彼此能优势互补的计算机视觉任务结合起来以解决MOT问题。可能的组合包括目标分割,行人再识别,行人姿态估计和动作识别。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,951评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,606评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,601评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,478评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,565评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,587评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,590评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,337评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,785评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,096评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,273评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,935评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,578评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,199评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,440评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,163评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,133评论 2 352