这都是压缩到了1s以内的结果,好坏参差不齐
比较好的结果
1.png
3.png
10.png
惨不忍睹的结果
8.png
9.png
还有一些目标不在正中位置的结果,没法表达出任何内容
2.png
6.png
总结
因为是强行压缩来减少帧数,所以这个模型选择的是保留分值最高的帧
测试集中有些视频连正常人看了也不知道该拿什么作为封面,不过这个模型的泛化能力可能有点差,它输出结果好的都是目标单一的,场景切换少的,,对于来回切换场景,多目标的视频,表现得都很烂。
下一步工作遇到的问题
如果想要拿我们自己的真实视频进行测试,有个一直困扰我们的问题,每一帧图片的特征提取。论文中提到是用GoogleNet pool5的输出值(1024维),,但我调过的代码都是2048维的,用的都是别人预训练过的模型,2048跟1024应该不单单是改一个数字就能解决了。
Paste_Image.png