SlowFast

SlowFast

https://arxiv.org/pdf/1812.03982v3.pdf

https://hub.fastgit.org/facebookresearch/SlowFast

我们提出了用于视频识别的SlowFast网络。我们的模型包括:(i)一个Slow路径,以低帧速率操作,以捕捉空间语义;(ii)一个Fast路径,以高帧速率操作,以精细的时间分辨率捕捉运动。快速路径可以通过减少信道容量(reducing its channel capacity)而变得非常轻量级,同时还可以学习有用的时间信息用于视频识别。我们的模型在动作分类和视频检测两方面都取得了很好的性能,而我们的SlowFast概念为我们提供了很大的改进。我们报告最先进的准确性主要视频识别基准:Kinetics, Charades和AVA。代码已在以下位置提供:https://github.com/facebookresearch/SlowFast

1. 引言

在图像识别中,通常对两个空间维xy对称处理。这是由自然图像的统计来证明的,对于第一近似,各向同性的所有方向都是同样可能的,并且具有平移不变[41,26]。但是视频信号I(x,y,t)呢?运动是方向[2]的时空对应物,但所有时空方向的可能性不尽相同。慢动作比快速运动更可能(事实上我们看到的世界上大多数人在某一时刻处于静止状态),这在贝叶斯描述人类如何感知运动刺激中得到了利用[58]。例如,如果我们孤立地看到一个运动边缘,我们会感觉它是垂直于自身的运动,即使在原则上它也可以有一个与自身相切的任意运动分量(光流中的孔径问题)。如果先验的感觉偏向缓慢的动作,这种感觉是合理的。(Motion is the spatiotemporal counterpart of orientation [2], but all spatiotemporal orientations are not equally likely. Slow motions are more likely than fast motions (indeed most of the world we see is at rest at a givenmoment) and this has been exploited in Bayesian accounts of how humans perceive motion stimuli [58]. For example, if we see a moving edge in isolation, we perceive it as moving perpendicular to itself, even though in principle it could also have an arbitrary component of movement tangential toitself (the aperture problem in optical flow). This percept is rational if the prior favors slow movements.)

如果所有时空方向的可能性不相等,那么我们就没有理由对称地对待时空,就像基于时空卷积的视频识别方法中隐含的那样[49,5]。我们可以将结构的“因素”作为一个因素,分别处理空间结构和时间事件。具体而言,让我们在认知的语境中研究这一点。视觉内容的范畴空间语义往往发展缓慢。例如,挥手在挥手动作的跨度上不会改变自己作为“手”的身份,一个人即使可以从走路过渡到跑步,也始终处于“人”范畴。因此,分类语义(以及它们的颜色、纹理、灯光等)的识别可以相对缓慢地刷新。另一方面,正在执行的动作可以比他们的主体身份进化得快得多,例如拍手、挥手、颤抖、走路或跳跃。利用快速刷新帧(高时间分辨率)对潜在的快速变化运动进行有效建模是一种理想的方法。(If all spatiotemporal orientations are not equally likely, then there is no reason for us to treat space and time sym-metrically, as is implicit in approaches to video recognition based on spatiotemporal convolutions [49, 5]. We might instead “factor” the architecture to treat spatial structures and temporal events separately. For concreteness, let us study this in the context of recognition. The categorical spatial semantics of the visual content often evolveslowly.For example, waving hands do not change their identity as“hands” over the span of the waving action, and a person is always in the “person” category even though he/she can transit from walking to running. So the recognition of the cat-egorical semantics (as well as their colors, textures, lighting etc.) can be refreshed relatively slowly. On the other hand, the motion being performed can evolve much faster than their subject identities, such as clapping, waving, shaking, walking, or jumping. It can be desired to usefast refreshing frames (high temporal resolution) to effectively model the potentiallyfast changing motion.)

基于这种直觉,我们提出了一种用于视频识别的双路径SlowFast模型(图1)。一种方法是捕获图像或少数稀疏帧(images or a few sparse frames)所提供的语义信息,并以低帧速和缓慢的刷新速度运行(it operates at low frame rates andslowrefreshing speed)。相反,另一条路径负责捕捉快速变化的运动,通过以快速刷新速度和高时间分辨率运行。尽管它的时间速率很高,但这条通路非常轻量,例如,大约占总计算量的20%。这是因为该路径设计为具有较少的通道和较弱的处理空间信息的能力,而这些信息可以由第一路径以较少冗余的方式提供。我们称第一条是慢路径,第二条是快路径,由于两者不同的时域速度。这两条通路通过横向连接融合。

图1。SlowFast网络具有低帧速率、低时间分辨率的慢速路径和高帧速率、高时间分辨率(\alpha \times )的快速路径。通过使用一部分(β,例如1/8)通道,快速通道是轻量级的。横向连接融合;两者

我们的概念理念导致了灵活有效的视频模型设计。快速路径由于其轻量级特性,不需要执行任何时域池化,它可以在所有中间层的高帧率下运行(it can operate on high frame rates for all intermediate layers and maintain temporal fidelity),并保持时间保真度。同时,由于时间速率较低,慢路径可以更关注空间域和语义。通过以不同的时间速率处理原始视频,我们的方法允许这两条路径在视频建模方面拥有各自的专长。

还有另一个众所周知的视频识别体系结构,它有两流设计two-stream design[44],但提供了概念上不同的视角。双流方法[44]没有探索不同时间速度的潜力,这是我们方法中的一个关键概念。两流方法对两个流采用相同的主干结构,而我们的快速路径则更轻。我们的方法不计算光流,因此,我们的模型是从原始数据端到端学习的。在实验中,我们观察到SlowFast网络在经验上更有效。

我们的方法部分是受到灵长类视觉系统中视网膜神经节细胞生物学研究的启发[27,37,8,14,51],尽管无可否认,这种类比是粗糙和不成熟的。这些研究发现在这些细胞中,∼80%是小细胞(P细胞)和∼15-20%为大细胞(M细胞)。M细胞在高时间频率下工作,对快速的时间变化有反应,但对空间细节或颜色不敏感。P细胞提供精细的空间细节和颜色,但时间分辨率较低,对刺激反应缓慢。我们的框架是类似的:(i)我们的模型有两个路径分别工作在低和高时间分辨率(ii)我们的快速通道设计用于捕捉快速变化的运动,但空间细节较少,类似于M细胞;(iii)我们的快速通道是轻量的,类似于小比例的M细胞。我们希望这些关系能启发更多的计算机视觉模型用于视频识别。

我们在Kinetics-400[30]、Kinetics-600[3]、Charades[43]和AVA[20]数据集上评估了我们的方法。我们在Kinetics行为分类上的综合消融实验证明了SlowFast的有效性。SlowFast网络在所有数据集上建立了一个新的最新状态,与文献中以前的系统相比有显著的改进。

2.相关工作

时空滤波。动作可以表示为时空对象,并通过时空中的定向过滤来捕获(Spatiotemporal filtering.Actions can be formulated as spatiotemporal objects and captured by oriented filter-ing in spacetime),就像HOG3D[31]和cuboids[10]所做的那样。3D ConvNets[48,49,5]将2D图像模型[32,45,47,24]扩展到时空域,以类似方式处理空间和时间维度。还有一些相关方法侧重于使用时间步长进行长期滤波和合并[52、13、55、62],以及将卷积分解为单独的二维空间和一维时间滤波器[12、50、61、39]。

除了时空过滤或它们的可分离版本之外,我们的工作通过使用两种不同的时间速度来追求对建模专业知识的更彻底的分离。

用于视频识别的光流。有一个经典的研究分支集中在基于光流的手工时空特征上。这些方法,包括流直方图[33]、运动边界直方图[6]和轨迹图[53],在深度学习盛行之前,在动作识别方面表现出了竞争性的表现。在深层神经网络的背景下,双流方法[44]通过将光流视为另一种输入模式来利用光流。该方法已成为文献〔12, 13, 55〕中许多竞争性结果的基础。然而,考虑到光流是手工设计的表示,并且两流方法通常不能与光流一起端到端地学习,因此在方法上是不令人满意的。

3. SlowFast网络

SlowFast网络可以被描述为在两种不同帧速率下运行的单流结构,但是我们使用路径的概念来反映与生物小细胞和大细胞对应物的相似性。我们的通用架构有一个缓慢的路径(3.1节)和快速路径(3.2节),两者通过横向连接融合(3.3节)。图1说明了我们的概念。

3.1. 慢路径

慢路径可以是任何卷积模型(例如,[12,49,5,56]),其作为时空体积在视频片段上工作(works on a clip of video as a spatiotem-poral volume)。我们慢路径的关键概念是在输入帧上一个大的时间步长τ ,即它只处理1/τ 的帧。τ 的典型值我们研究的是16,这个刷新速度大约是,对于30fps的视频,每秒采样2帧。慢路径采样的帧数为T,原始帧数为T× τ

3.2. 快路径

与慢路径平行,快路径是另一个具有以下性质的卷积模型。

高帧速率。

我们的目标是在时间维度上有一个良好的表示。我们的快速路径在时域上的步长要更小,为τ/\alpha ,其中\alpha >1是快路径和慢路径的帧率之比。这两条路径在同一个原始片段上运行,所以快路径采样αT帧,要比慢路径密集\alpha 倍。在我们的实验中\alpha 的典型值为8。

α 的存在是SlowFast的核心概念(图1,时间轴)。它明确指出这两条路径以不同的时间速度工作,从而驱动两个子网实例化这两条路径的专业知识。

高时域分辨率特征。

我们的快路径不仅具有高输入分辨率,而且在整个网络层次结构中追求高分辨率特性。在我们的实例中,我们在整个快速路径中不使用时间下采样层(既不使用时域池化也不使用时间步幅卷积),直到分类之前的全局池化层。因此,我们的特征张量沿着时间维度总是有αT帧,尽可能保持时间保真度。

低通道容量(Low channel capacity)

我们的快速路径与现有模型的区别在于,它可以使用显著较低的通道容量来实现SlowFast模型的良好精度。这使得它很轻量。

简而言之,我们的快速路径是一个类似于慢速路径的卷积网络,但其通道数与慢路径通道数之比为β (β < 1)。在我们的实验中典型值为β = 1/8。请注意,公共层的计算(floating number operations操作,或FLOPs)相对于通道数是二次的。这就是为什么快速路径比慢速路径更高效。在我们的实例中,快速路径通常站总计算量的20%。有趣的是,正如第1节所述,有证据表明,灵长类视觉系统中15-20%的视网膜细胞是M细胞(对快速运动敏感,但对颜色或空间细节不敏感)。

通道容量低也可以解释为空间语义表示能力较弱。从技术上讲,我们的快速路径在空间维度上没有特殊处理,因此其空间建模能力应该低于慢速路径,因为通道较少。该模型的良好结果表明,在增强快速路径的时间建模能力的同时,削弱其空间建模能力是一种理想的折衷方案。

基于这种解释,我们还探讨了在快速路径中削弱空间容量的不同方法,包括降低输入空间分辨率和去除颜色信息。正如我们将通过实验证明的那样,这些版本都可以给出很好的精度,这表明一个具有较小空间容量的轻量级快速路径是有益的。

3.3 横向连接

这两条路径的信息是融合的,因此一条路径并不是不知道另一条路径学习到的表征。我们通过横向连接来实现这一点,横向连接被用于融合基于光流的双流网络[12,13]。在图像目标检测中,横向连接[35]是一种流行的技术,用于合并不同级别的空间分辨率和语义。

与[12,35]类似,我们在每一个“阶段”的两条路径之间连接一个横向连接(图1)。例如,对于resnet[24],这些连接紧跟在pool1、res2、res3和res4之后。这两条路径有不同的时间维度,因此横向连接会进行转换以匹配它们(详见第3.4节)。我们使用单向连接,将快速路径的特征融合到慢路径中(图1)。我们对双向融合进行了实验,发现效果差不多。

最后,对每个路径的输出执行全局平均池化。然后将两个池化的特征向量拼接起来作为全连接分类器层的输入。

3.4. 实例化

我们的SlowFast思想是通用的,它可以用不同的主干(例如,[45,47,24])和实现细节实例化。在本小节中,我们将描述网络体系结构的实例。

表1给出了一个SlowFast模型的例子。我们用T\times S^2表示时空大小,其中T是时域长度,S是正方形空间裁剪的高度和宽度。下面将介绍详细信息。

慢通道。

表1中的慢路径是一个临时跨越的三维ResNet,修改自[12]。它有T=4帧作为网络输入,从一个64帧的原始片段中稀疏地采样,具有时间步长τ = 16.我们选择在这个实例中不执行时间下采样,因为这样做在输入步幅较大时是有害的。

与典型的C3D/I3D模型不同,我们仅在res4和res5中使用非退化时间卷积(时间核大小>1,在表1中加下划线);从conv1到res3的所有滤波器基本上都是二维卷积核,这是因为我们的实验观察发现,在早期层中使用时间卷积会降低精度。我们认为,这是因为当物体快速移动且时间步长较大时,除非空间感受野足够大(即,在后面的层中),否则时间感受野内的相关性很小。

快速通道。表1显示了一个快速路径的例子α = 8和β = 1/8。它具有更高的时间分辨率(绿色)和更低的信道容量(橙色)。快速路径在每个块中都有非退化的时间卷积。这是由于观察到这条路径具有很好的时间分辨率,以便时间卷积捕获详细的运动。此外,根据设计,快速路径没有时间下采样层。

横向连接。

我们的横向连接从快速通道融合到慢速通道。它要求在融合之前匹配特征的大小。将慢通路的特征形状表示为{T,s2,C},快通路的特征形状表示为{T,s2,C}{αT、 第二节,βC} 是的。我们在横向连接中进行以下转换实验:(i)通道时间:我们重塑和转置{αT、 第二节,βC} 变成{T,s2,αβC} ,意思是我们把所有的α 帧到一帧的通道中。

(ii)时间步长采样:我们只需从每个样本中抽取一个样本α 框架,所以{αT、 第二节,βC} 变成{T,s2,βC} 是的。

(iii)时间步进卷积:我们对一个5×1 2内核和2βC输出通道和步幅=α. 

横向连接的输出通过求和或串联融合到慢通道中。

实验:动作分类

我们使用标准评估协议在四个视频识别数据集上评估我们的方法。对于本节介绍的动作分类实验,我们考虑了广泛使用的Kinetics-400[30]、最新的Kinetics 600[3]和Charades[43]。动作检测实验。5.我们使用具有挑战性的AVA数据集[20]。

培训。

我们的动力学模型是从随机初始化(“从头开始”)开始训练的,不需要使用ImageNet[7]或任何预训练。我们按照[19]中的方法使用同步SGD训练。详见附件。

对于时域,我们随机抽取一个片段(共个)αT×τ 帧),慢通道和快通道的输入分别为T和αT帧;对于空间域,我们随机裁剪224个×224像素的视频,或其水平翻转,较短的一面随机采样[256,320]像素[45,56]。

推理。

按照通常的做法,我们从一个视频中沿时间轴均匀地抽取10个片段。对于每个剪辑,我们将较短的空间边缩放到256像素,并进行3次256像素的裁剪×256覆盖空间维度,作为完全卷积测试的近似值,遵循[56]的代码。我们平均预测的softmax分数。

我们报告了实际的推理时间计算。由于现有文献在空间和时间上的裁剪推理策略不同。与以前的工作相比,我们报告了每个时空“视图”(带有空间裁剪的时间片段)在推理时的FLOPs以及使用的视图数。回想一下,在我们的例子中,推断时间-空间大小是2562(而不是2242用于训练),并且使用了10个时间片段,每个片段有3个空间裁剪(30个视图)。

数据集。

动力学-400[30]包括∼400个人类行为类别中的240k个培训视频和20k个验证视频。动力学-600[3]已经∼600节课的392k培训视频和30k验证视频。我们报告了top-1和top-5分类准确率(%)。我们报告的计算成本(在触发器)的一个单一的,空间中心裁剪剪辑。

字谜[43]有∼在一个多标签分类设置中,在157个班级中有9.8k个培训视频和1.8k个验证视频,活动跨度较长∼平均30秒。性能以平均精度(mAP)衡量。

主要结果

动力学-400。

表2显示了使用各种输入采样(T×τ ) 主干网:ResNet-50/101(R50/101)[24]和Nonlocal(NL)[56]。

与之前最先进的模型相比[56],我们的最佳模型提供了2.1%更高的top-1精度。值得注意的是,我们的所有结果都比没有ImageNet预训练的现有结果要好得多。特别是,我们的模型(79.8%)比以前的最佳结果(73.9%)绝对好5.9%。我们对速度较慢的网络进行了ImageNet预训练实验,发现它们的性能相似(±0.3%),用于预训练和从头开始训练(随机初始化)变体。

我们的结果是在较低的推理时间成本下实现的。我们注意到,许多现有的工作(如果报告)使用沿时间轴的剪辑非常密集的采样,这可能导致在推断时间>100个视图。这一成本在很大程度上被忽视了。相比之下,我们的方法不需要太多的时间片段,因为它具有高时间分辨率和轻量级的快速路径。我们的每个时空视图的成本可能很低(例如,36.1 GFLOPs),但仍然是准确的。

表2中的慢-快变异(具有不同的主干和采样率)在图2中与其相应的慢-纯途径进行比较,以评估快速途径带来的改善。横轴测量2562个空间大小的单个输入片段的模型容量,这与总推理成本的1/30成比例。

图2显示,对于所有变体,快速路径能够以相对较低的成本始终如一地改进慢对应物的性能。下一小节将对Kinetics-400进行更详细的分析。

Kinetics-600相对较新,现有结果有限。因此,我们的目标主要是在表3中提供结果供将来参考。请注意,Kinetics-600验证集与Kinetics-400训练集重叠[3],因此我们没有对Kinetics-400进行预训练。最新的ActivityNet Challenge 2018[15]的获奖条目[21]报告了最佳单模型、单模态精度为79.0%。我们的变种表现出良好的性能,最好的型号为81.8%。关于最近的动力学-700[4]的最慢结果见[11]。

Charades[43]是一个具有更大范围活动的数据集。表4显示了我们关于它的最慢结果。为了公平比较,我们的基线是只有39.0 mAP的慢速对应。SlowFast比这个基线增加了3.1 mAP(到42.1),而额外的NL导致了额外的0.4 mAP。当我们在Dynamics-600上进行预训练时,我们也达到了45.2 mAP。总的来说,表4中我们的慢速度模型以较低的成本以稳定的利润率优于之前的最佳数(STRG[57])。

4.2. 烧蚀实验

本节提供了关于Kinetics-400的烧蚀研究,比较了精确度和计算复杂性。

慢vs.慢。我们首先通过改变样本率(T)来探讨慢-快互补性×τ ) 缓慢的路径。因此,本文对消融进行了研究α, 快慢路径之间的帧速率比率。图2显示了慢模型和慢模型的各种实例化的精度与复杂性的权衡。可以看出,将慢路径中的帧数加倍以加倍的计算代价(横轴)提高性能(纵轴),而SlowFast以较小的计算代价显著地扩展所有变体的性能,即使慢路径以更高的帧速率运行。绿色箭头说明了将快速路径添加到相应的纯慢速体系结构的好处。红色箭头说明SlowFast提供了更高的精度和更低的成本。

下一步,表5显示了快速通道设计上的一系列烧蚀,使用默认的慢速度T×τ = 4×16,R-50实例化(见表1),依次分析。

个别途径。表5a中的前两行显示了单独使用一个单独路径结构的结果。慢路径和快路径的默认实例化非常轻量级,只有27.3和6.4 GFLOPs,32.4M和0.53M参数,分别产生72.6%和51.7%的top-1精度。如果这些通道被联合使用,那么这些通道是用他们的专业知识设计的,接下来就是烧蚀。

慢熔合。表5a显示了融合慢、快路径的各种方法。作为naïve融合基线,我们展示了一个不使用横向连接的变体:它只连接两条路径的最终输出。该变型的准确率为73.5%,略优于慢型,比慢型的精度提高了0.9%。然后,我们将不同横向连接的SlowFast模型烧掉:时间到信道(TtoC)、时间步长采样(T样本)和时间步长卷积(T-conv)。对于能够匹配信道尺寸的TtoC,我们还报告了元素的融合(TtoC,sum)。对于所有其他变体,采用级联进行融合。表5a显示,这些慢流模型都优于慢唯一路径。在T-conv的横向连接性能最好的情况下,SlowFast网络比仅慢3.0%的性能好。我们使用T-conv作为违约。有趣的是,仅快速通路的准确率仅为51.7%(表5a)。但它对慢通道的改善率高达3.0%,说明快速路径模型的基本表示基本上是互补的。我们通过下一组烧蚀来加强这一观察。快速通道的通道容量。设计快速路径的一个关键直觉是,它可以利用较低的信道容量捕获运动,而不需要建立详细的空间表示。这是由信道比率控制的β. 表5b显示了变化的影响β. 最好的表演β 值为1/6和1/8(默认值)。然而,令人惊讶的是,所有的价值观都来自β=在我们的慢流模型中,1/32到1/4可以比慢的唯一对应模型改进。特别是β=1/32,快速途径仅增加1.3个GFLOPs(相对约5%),但提高1.6%。

快速路径的空间输入较弱。此外,我们还对慢流模型中的快速路径使用不同的弱空间输入进行了实验。我们考虑:(i)半空间分辨率(112×112),带β=1/4(与默认值1/8)相比,大致保持触发器(ii)灰度输入帧(iii)“时差”帧,通过与前一帧减去当前帧计算;以及(iv)以光流作为快速通道的输入。表5c显示,所有这些变体都具有竞争力,并且优于仅缓慢的基线。特别是,灰色版本的快速通道几乎和RGB变体一样好,但减少了触发器∼5%. 有趣的是,这也与M细胞对颜色不敏感的行为一致[27、37、8、14、51]。我们相信表5b和表5c都令人信服地表明,轻量级但时间上的高分辨率快速路径是视频识别的有效组成部分。从头开始训练。我们的模型是从头开始训练的,没有ImageNet培训。为了进行公平的比较,有助于从零开始检查培训的潜在影响(积极或消极)。为此,我们使用我们从头开始训练的大规模SGD配方,训练了[56]中规定的完全相同的3D ResNet-50体系结构。表6显示了使用此3D R-50基线架构进行的比较。我们观察到,我们的培训配方与[56]报告的ImageNet预训练配方相比,取得了相当好的效果,而[56]中的配方没有完全适合从零开始直接训练。这表明,我们的训练系统,作为我们的实验的基础,对这个基线模型没有损失,尽管没有使用IMANET进行预训练。

实验:AVA动作检测

数据集。AVA数据集[20]关注人类行为的时空定位。数据来自437部电影。时空标签以每秒一帧的速度提供,每个人都用一个边界框和(可能有多个)动作进行注释。注意,AVA的难点在于动作检测,而演员定位的挑战性较小[20]。我们使用的AVA v2.1中有211k训练和57k验证视频片段。我们遵循标准协议[20],对60个类进行评估(见图3)。性能指标是超过60个类的平均精度(mAP),使用0.5的帧级IoU阈值。检测体系结构。我们的检测器类似于更快的R-CNN[40],只需对视频进行最小的修改。我们使用慢速网络或其变体作为主干网。我们将res5的空间步长设置为1(而不是2),并对其过滤器使用2的伸缩。这会将res5的空间分辨率提高2×. 我们在res5的最后一个特征图上提取感兴趣区域(RoI)特征[17]。我们首先通过沿时间轴复制,将一帧处的每个2D RoI扩展为3D RoI,类似于[20]中介绍的方法。随后,我们通过ROIAllign[22]在空间上计算RoI特征,并通过全局平均池在时间上计算RoI特征。然后将RoI特征最大化,并反馈给每类sigmoidbase分类器进行多标签预测。我们遵循以前的工作,使用预先计算的建议[20,46,29]。我们的区域建议是由现成的人检测器计算的,也就是说,它不是与动作检测模型联合训练的。我们采用了一个由Detectron训练的人检测模型[18]。它是一个更快的R-CNN,具有ResNeXt-101-FPN[60,35]主干。它是在ImageNet和COCO人类关键点图像上预先训练的[36]。我们在AVA上对这个检测器进行微调,以进行人(演员)检测。人探测器产生93.9AP@50 在AVA验证集上。然后,在置信度大于0.8的人框中检测出动作检测的区域建议,对人类的召回率为91.1%,准确率为90.7%。培训。我们从Kinetics-400分类模型中初始化网络权重。我们使用逐步学习率,将学习率降低10%× 当验证错误饱和时。我们训练14k次迭代(68次迭代)∼211k数据),第一个1k迭代的线性预热[19]。我们使用10的重量衰减−7 . 所有其他超参数与动力学实验相同。地面真值箱作为训练样本。输入是实例化特定的αT×τ 尺寸为224的框架×224.推断。我们使用αT×τ 要计算的帧周围的帧。我们调整空间尺寸,使其较短的一面是256像素。主干特征提取器是完全卷积计算的,如标准更快的R-CNN[40]。

5.1. 主要结果

我们将与表7中先前关于AVA的结果进行比较。有趣的观察是使用光流的潜在好处(见表7中的“flow”列)。现有工程已观察到轻微的改进:+1.1 I3D地图[20],以及[29]中ATR的+1.7地图。相反,我们的基线通过+5.2 mAP的快速路径来改善(下一节的消融实验见表9)。另外,采用光流的两种流方法可以使计算成本加倍,而我们的快速路径是轻量级的。作为系统级比较,我们的SlowFast模型仅使用动力学-400预训练,具有26.3个mAP。这是5.6地图高于以前在类似设置下的最佳数字(ATR[29],单型号的21.7),比不使用光流量的映射高7.3(表7)。[16]预列车在较大的动力学-600上的工作,达到21.9图。为了进行公平比较,我们观察到使用动力学-600的速度从26.3到26.8图有了改进。NL块增加慢流速度[56]将这一点增加到27.3个。我们在+val列车上(和1.5)上训练此模型× 更长)并提交给AVA v2.1测试服务器,它实现27.1 mAP单作物测试集精度。通过使用IoU>0.9与地面真相箱重叠的预测建议,除了地面真相箱,我们还实现了28.2地图单作物验证精度,这是AVA的最新技术。使用AVA v2.2数据集(提供更一致的注释)将此数字提高到29.0映射(表8)。长期慢播,16×8模型生成29.8张地图,并使用多个空间尺度和水平翻转进行测试,此数字增加到30.7张地图。

最后,我们创建了一个由7个模型组成的集成,并将其提交给ActivityNet challenge 2019的官方测试服务器[1]。如表8所示,该条目(SlowFast++,集成)在测试集上达到34.3地图精度,在2019年AVA行动检测挑战中排名第一。有关我们的获奖解决方案的更多细节,请参见相应的技术报告[11]。

5.2. 烧蚀实验

表9将仅慢基线与其慢的基线进行了比较,图3中所示的每类AP。我们的方法从19.0到24.2大幅改进了5.2 mAP(相对28%)。这完全是我们最慢的想法所贡献的。从类别角度(图3),我们的SlowFast模型在60个类别中有57个改进,而它的慢唯一对应项。“手拍”(+27.7 AP)、“游泳”(+27.4 AP)、“跑步/慢跑”(+18.8 AP)、“舞蹈”(+15.9 AP)和“吃”(+12.5 AP)的绝对涨幅最大。我们还观察到“跳跃/跳跃”、“手波”、“放下”、“投掷”、“命中”或“削减”的相对增加。这些是建模动力学至关重要的类别。SlowFast模型仅在3类中表现较差:“应答电话”(-0.1 AP)、“谎言/睡眠”(0.2 AP)、“射门”(-0.4ap),且它们的下降相对较小,而其他类型的增长则相对较小。结论时间轴是一个特殊的尺寸。本文研究了一种与沿该轴速度进行对比的建筑设计。它实现了视频动作分类和检测的最先进精度。希望这种慢播概念能促进视频识别的进一步研究。附录实施细节。我们研究了包括ResNet-50和更深的ResNet-101[24]在内的主干,可以选择使用非本地(NL)块进行增强[56]。对于涉及R-101的模型,我们使用的比例抖动范围为[256,340]。T×τ = 16×8个模型从8个模型初始化×8名同行,培训时间为培训期的一半,以减少培训时间。对于所有涉及NL的模型,我们使用训练的对应模型初始化它们,以便于收敛。我们只在res4(融合)慢特性(而不是res3+res4[56])上使用NL。在动力学方面,我们按照[19]中的配方,在128个GPU中采用同步SGD训练,发现其准确性与8-GPU机器的典型训练一样好,但扩展性较好。最小批次大小为每个GPU 8个剪辑(因此,总的最小批次大小为1024)。我们使用[23]中的初始化方法。我们用批标准化(BN)[28]训练,每8个剪辑内计算BN统计数据。采用半周期余弦学习速率衰减的调度方法:n次迭代时的学习速率为η · 0.5[cos(n nmaxπ) + 1] 其中,nmax是最大的培训迭代和基本学习率η 设置为1.6。在最初8k迭代中,我们还使用了线性预热策略[19]。对于Dynamic-400,我们训练256个周期(60k迭代,总的最小批大小为1024次,in∼240k动力学视频)T时≤ 4帧,T>4帧时为196个时代:当剪辑有更多帧时,训练就足够短。在分类器层前,采用0.9动量和10-4的权值衰减,在最终分类器层之前使用0.5的衰减。

对于Kinetics-600,我们将培训时间(和时间表)延长了2个月× 设定基本学习率η 至0.8。对于哑谜,我们微调动力学模型。perclass sigmoid输出用于说明mutli类的性质。我们在一台机器上训练24k次迭代,批量大小为16,基本学习率为0.0375(Kinetics400预训练)和0.02(Kinetics-600预训练),每次10× 如果验证误差饱和,则逐步衰减。为了进行推断,我们暂时最大池分数[56]。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,922评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,591评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,546评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,467评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,553评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,580评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,588评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,334评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,780评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,092评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,270评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,925评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,573评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,194评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,437评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,154评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352

推荐阅读更多精彩内容