该文章是首篇,在行为识别领域中,用压缩视频进行深度网络训练的论文。文中阐述了将压缩视频用于行为识别理由;作者尝试的过程及实验结果。
视频压缩感知重构时利用到了帧间的差异。帧间的差异与运动向量以及帧间残差有关,将运动向量及残差作为网络的输入,减少网络建模时序运动信息的难度;同时压缩的视频减少了冗余信息,易于训练。
摘要:
由于视频的size大及时序信息的冗余,深度的视频学习任务训练要比图像的表示学习要难得多。作者提出直接在压缩视频上训练深度网络。
理由:
1.经过压缩的视频,具有高信息密度,更容易训练
2.经过压缩的视频,也提供了滤除噪声影响的运动信息
实验效果:
1. 训练速度上的优势:比Res3D快4.6倍;比ResNet-152快2.7倍
2. 精度:UCF101,HMDB-51,Charades
Introduction:
1.作者主要分析在视频行为中,深度技术效果与传统技术相比优势不大的主要原因:
A.视频信息密度低
B.只有多张RGB图像,难以学习到时序结构
2.将压缩视频用于深度网络(可行性分析):
视频压缩感知重构时利用到了帧间的差异。帧间的差异与运动向量以及帧间残差有关。
A.压缩视频:二阶信息----》特征信号突出
B.提供运动信息,同时包括空间信息
C.压缩视频,利用帧间差异储存数据,----》原始图像加上差异得到当前图像,数据量少于,直接将一张张图像保存
D.高效
Video Compression:
压缩视频:主要将视频分为 I-frames (intracoded frames), P-frames (predictive frames) 和 B-frames (bi-directional frames)(有时为0)。
I-frames:原始图像。P-frames:则以先前帧为参考,只编码与先前帧的差异(changes)。这差异的一部分,可认为是运动向量,即是原始图像块(source)到t时刻的目标图像块(target)的运动,记为
。差异的另一部分:上述通过运动向量得到之后的预测图像与原始图像的残差,
P帧的重建则为:
P-frames:描述运动信息,与光流类似;残差:粗略描述运动边界
Modeling Compressed Representations :
尝试1:直接将I-frames,P-frames,残差分离输入,最后再融合,Failed
作者认为:单独的P帧或者残差并不能包含全部的运动信息。破坏了P帧与I帧的依赖关系
Q1:如何利用网络表达这种依赖关系。
尝试2:由于P帧依赖于I帧,每一帧的重构依赖于前一帧。类似于RNN或者LSTM的结构,下一个神经元的输入依赖于前一个神经元的输出。作者尝试了RNN结构,初步实验表明该方法无效。
作者初步分析:随着P帧的增多,帧间依赖关系增强;
Q2:能否用LSTM网络?LSTM网络,短时记忆,会不会偏离于原始图像----》影响理解
尝试3:1.需表达I帧与P帧的依赖关系;2.解除P帧间的依赖关系。
作者采用回溯的方法,由当前帧回溯到I帧,计算运动向量(即为累积的运动向量),残差(累积残差)。
给定t帧的某个位置的像素点i,
表示该像素点在前一帧的参考位置,则i在前k帧的位置表示为(k<t):
则运动向量及残差:
网络结构:
整体网络架构:文中采用类似于双流的方法。在用上图中的网络之外,还结合TSN网络(Temporal Segments Networks)
网络输入:
Q:网络具体结构?每个输入单独构建网络,之后再融合?
网络结构:
I帧网络:ResNet152(I帧储存大部分信息)
P帧,残差网络:ResNet18(只需学习从I帧到p帧的更新信息)
实验效果:
1.速度:
2.精度:
A.各网络效果
B.与其他模型对比