原文链接 参考博文
每年都会更新,最新版本是v4(2017年5月),文章中介绍的方法都是2017年以前的方法
摘要
目标重叠、外观剧变等问题仍然是它所面临的重大挑战。[^1]
本文的主要贡献点如下四条:
1)多目标跟踪系统的关键方向,包括公式(formulation),分类(categorization),关键原则(key principles),以及测评(evaluation);
2)根据现有技术所属的不同方向来进行讨论,再将每个方向的方法划分为成组,然后对组内方法的原则、优缺点进行讨论;
3)检验现有公开的实验并且总结在主流数据集上的实验结果,再进行量化地对比,与此同时指出分析中发现的几个有趣的问题;
4)提供在MOT研究中会遇到的问题的讨论,以及可能在以后的工作中会出现的潜在可研究方向。
1.介绍
MOT or MTT主要任务是在给定视频中同时对多个感兴趣的目标进行定位,并且维持他们的ID、记录他们的轨迹。
单目标跟踪(Single Object Tracking, SOT)主要集中在设计复杂的外观模型和/或运动模式,解决具有挑战性的问题如尺度变化,出平面旋转和光照变化,而多目标跟踪还有额外的两个任务需要解决:确定目标的数量(通常随时间变化),和维持各自的ID
。
除了SOT和MOT的共同问题外,MOT还需要处理更复杂的关键问题包括:1)频繁遮挡;2)轨道初始化和终止;3)相似的外观;4)多目标间的相互影响。
2.MOT 问题
2.1 公式
多目标跟踪可以认为是多变量估计问题
多目标跟踪的目的是找到所有目标“最好的”状态序列
基于概率预测方面的,基于决策优化方面的
2.2 分类
2.2.1 初始化方法
- DBT(Detection-Based Tracking):首先检测目标,然后链接到轨迹中。可以自动发现新目标、自动终止消失的目标
有两个问题值得注意:
第一,由于提前训练目标检测器,DBT大部分关注特定的目标类型,如行人、车辆或人脸。
第二,DBT的性能非常依赖于所采用的目标检测器的性能。
-
DFT(Detection-Free Tracking):需要在第一帧手动初始化一定数量的目标,然后在后续帧定位这些物体。
2.2.2 处理模式
- Online跟踪:图像序列是一步步处理的因此该跟踪方式也称序列跟踪。
-
Offline跟踪:利用一组帧来处理数据。由于计算复杂度和内存限制,不总是一次性处理所有帧,而是考虑将数据分成几个短一点的视频,对于每组分层或顺序处理得到结果。
2.2.3 输出类型
这个标准根据输出的随机性将MOT方法分成基于决策的和基于概率的
3.MOT 组成
在设计MOT算法的时候有两个问题需要考虑:一个是怎样测量帧内目标的相似性,另一个是基于这个相似性怎样判断帧间目标是否相同。前者主要包括外观,运动,交叉,排斥和碰撞的建模问题,后者主要和数据关联有关。
3.1 外观模型
3.2 运动模型
3.3 交互模型
3.4 排斥模型
3.5 遮挡处理
3.6 预测
4. MOT评估
4.1 指标
- 检测指标
精准度(Accuracy)、精度(Precision) - 跟踪指标
精准度(Accuracy)、精度(Precision)、完整性(Completeness)、鲁棒性(Robustness)
4.2 数据集
4.3 公开算法
4.4 基准结果
5. 总结
5.1 存在的问题
- MOT方法的性能在很大程度上取决于目标检测器
某些方法在特定视频序列中表现良好,然而当在应用于其他视频下时,它们可能不会产生令人满意的结果,这可能是因为该方法所使用的目标检测器是在特定的视频中被训练的,因此不能很好地泛化使用在其他视频序列中。 - 在提出MOT解决方法时,一个算法越复杂,就有越多的参数,这就使调参非常困难。其他人也很难实现这种方法并且重现结果。
5.2 未来的方向
MOT under multiple cameras:多摄像头的配置有两类:第一个是多摄像头记录同一个场景,即多视角。然而,这个设置的关键问题是如何融合来自多个摄像机的信息。第二个是每个摄像机记录一个不同的场景,即一个不重叠的多摄像机网络。在这时,多摄像头间的数据关联就成为了一个再识别(reidentification)问题。
MOT with scene understanding:拥挤场景下,例如在高峰时期的地铁车站和公共场所的游行示威。在这种情况下,大多数目标是小的和/或被大面积遮挡的,因此很难进行跟踪。场景理解的分析结果可以提供上下文信息和场景结构,如果将其更好地融入到MOT算法中,将有助于跟踪问题的解决。
MOT with deep learning:深度学习模型已成为处理各种视觉问题的非常强大的框架,包括图像分类(如:CNN图像分类),目标检测(如:Faster R-CNN、Yolo、SSD),单目标跟踪(SOT)。对于MOT问题,深度学习模型提供的强大的目标检测模型可以显著提高跟踪性能。尽管最近已经开始尝试使用连续神经网络进行在线MOT,但关于使用深度神经网络来进行目标关联问题的formulation和建模仍需要投入更多的研究。
MOT with other computer vision tasks :虽然多目标跟踪是服务于其他高层次的计算机视觉任务,但也存在这样的趋势:将一些彼此能优势互补的计算机视觉任务结合起来以解决MOT问题。可能的组合包括目标分割,行人再识别,行人姿态估计和动作识别。