MCMOT: Multi-Class Multi-Object Tracking using Changing Point Detection
这篇文章比较出彩的地方就是 多目标跟踪+context region
一、成绩
•Object Detection from Video (VID) 2ndplace(mAP: 73.15%)
•Object Detection/Tracking from Video (VID) 2ndplace(mAP: 49.09%)
二、主要结构
Faster R-CNN Object Detector 加上 MCMOT(Multi-Class Multi-Object Tracking)
(1)Faster R-CNN Object Detector
由于视频中有些帧中的object 比较小,所以文章采取了large feature map(即去掉VGG-16中的pool4)
同时,视频帧也存在模糊的情况,本文应用了context region
我们知道一幅图不同proposal对应图像不同的region,这样的话每个region对与最终分类的贡献也就不一样,可以分为三类:
target region:本身包含了分类目标(比如人);
context region:上下文,比如出现了一匹马通常就会有人(一般是人骑马);
背景区域:比如一棵树和人同时出现在图像中,而树和人在日常生活中并没有太相关的联系,所以可以把树看成背景区域,包含噪声。
这三种很明显的target region对分类的贡献高于其他两者,context region高于background noise region。
cross region pooling:跨区域合并
(2)数据集的选取和扩充
由于视频图片的冗余性和单一性,需要大量的训练数据,于是文章利用COCO数据集进行pre_train.
(3)MCMOT: Multi-Class Multi-Object Tracking using Changing Point Detection
这里没有看的非常明白,但大概意思应该是提出基于变换点检测的多目标跟踪算法[11],该算法首先检测出目标,然后对其进行跟踪,并在跟踪过程中对跟踪轨迹点进行分析处理,可以较好地缓解跟踪时的漂移现象,并能在轨迹异常时及时终止跟踪。
贴一张原理流程图
还解释了是否需要复杂的跟踪算法:Based on high performance detection,simple & fastMOT algorithm can achieve competitive result,是不需要的,因为detection部分已经有很好的表现了