Ambient sound provides supervision for visual learning
论文地址:https://arxiv.org/pdf/1608.07017.pdf
搭建网络生成视频帧对应的用谱图(statistical summary)表示的声音,只能用于生成环境声音的表示
Abstract
在这个工作中证明了环境声音可以作为视觉任务的。利用卷积网络生成生成视频对应的声音的统计概要图,这个概要图代表了声音的某种表现形式。由于某类声音是在特定场景中出现,也可视为该网络是声音监督的视觉分类任务和场景表示任务,声音合成任务。
Introduction
由于视觉场景和场景中的显著目标和声音有联系。因此可以利用这种方法预测场景声音(纹理)。由于数据标注成本昂贵,利用视觉的纹理信息,避免标注成本。声音预测会遇到一个问题是我们听到的声音和视觉是松散相关的,声源可能位于视野之外,因此先验找到视频的声音是比较困难的。因此,这项工作把声音 预测问题转换成为分类问题,利用CNN预测视频录制时发生声音的统计概要,随后验证学习到的表示形式是否包含有关对象和场景的重要信息。
本文主要有几个工作:
1)提出基于视觉CNN和声音纹理的模型
2)将学习到的表现形式用于对象和场景识别任务,验证声音监督的有效性
Visually indicated sounds
论文地址:https://arxiv.org/pdf/1512.08512.pdf
用于碰撞场景的声音生成
Abstract
由于物体的材料属性导致其在碰撞和摩擦时会发出不同的声音。因此本文提出一种利用RNN预测物体撞击声音的方法。
1 Introduction
声音不仅在统计上和视觉相关,而是直接由物理交互引起。所做的不是直接生成声音,而是对数据库的声音进行匹配
Audio-visual scene analysis with self-supervised multisensory features
利用声音对其网络实现前背景声音分离,声源分离和定位