SIFT Flow: 场景间密集通信及其应用

Sift flow: Dense correspondence across scenes and its applications

作者：Ce Liu; Jenny Yuen; Antonio Torralba
机构：微软研究院
年份：2010
期刊/会议：IEEE Transactions on Pattern Analysis and Machine Intelligence
原文地址：Sift flow Dense correspondence across scenes and its applications

虽然图像对齐已经在计算机视觉的不同领域进行了几十年的研究，但对齐描绘不同场景的图像仍然是一个具有挑战性的问题。类似于光流，其中图像与其时间相邻的帧对齐，我们提出了 SIFT 流，这是一种在包含各种场景的大型图像语料库中将图像与其最近邻居对齐的方法。SIFT 流算法包括在两个图像之间匹配密集采样的像素级 SIFT 特征，同时保留空间不连续性。SIFT 功能允许跨不同场景/对象外观的稳健匹配，而不连续性空间模型允许匹配位于场景不同部分的对象。实验表明，所提出的方法稳健地对齐包含显着空间差异的复杂场景对。基于SIFT流，我们提出了一种基于对齐的大型数据库框架，用于图像分析和合成，其中根据密集场景对应将图像信息从最近邻转移到查询图像。该框架通过具体应用进行演示，例如从单个图像进行运动场预测、通过对象传输进行运动合成、卫星图像配准和人脸识别。

Ⅰ 介绍

图像对齐、配准和对应是计算机视觉的核心主题。图像对齐存在多个级别的场景。为了图像拼接和立体匹配的目的，已经研究了最简单的级别，对齐同一场景的不同视图。

图像对齐位于不同的级别。(a) 研究人员过去常常在像素级别研究图像对齐问题，其中两个图像是在稍微不同的时间或以不同的视角从同一场景中捕获的。(b) 最近，对应已扩展到对象级别以进行对象识别。(c) 我们对场景级别的图像对齐感兴趣，其中两幅图像来自不同的 3D 场景但具有相似的场景特征。建议使用 SIFT 流程来对齐 (c) 中的示例以进行场景对齐。

对于视频序列中的动态场景，图像对齐问题变得更加复杂，例如光流估计。视频中两个相邻帧之间的对应关系通常被表述为对 2D 流场的估计。从立体中的 1D 过渡到光流中的 2D 的额外自由度引入了额外的复杂度。光流算法中的典型假设包括像素位移场的亮度恒定性和分段平滑度。

在目标识别场景中，图像对齐变得更加困难，目标是对齐同一对象类别的不同实例，如图 1b 所示。已经开发了复杂的对象表示来处理对象形状和外观的变化。然而，这些方法通常仍然需要对象是显着的、相似的，并且背景杂乱有限。

在这项工作中，我们对一种新的、更高级别的图像对齐感兴趣：对齐来自不同 3D 场景但共享相似场景特征的两个图像。场景级别的图像对齐因此称为场景对齐。如图1c 所示，要匹配的两个图像可能包含从不同视点捕获、放置在不同空间位置或以不同比例成像的对象实例。两幅图像也可能包含不同数量的同一类别的对象，并且一幅图像中存在的某些对象可能在另一幅图像中丢失。由于这些问题，场景对齐问题极具挑战性。

理想情况下，在场景对齐中，我们希望在语义级别建立对应关系，即在对象类级别进行匹配，例如建筑物、窗户和天空。然而，当前的物体检测和识别技术不足以检测和识别图像中的所有物体。因此，我们通过匹配局部、显着和变换不变的图像结构来采用不同的场景对齐方法。我们希望通过匹配这些图像结构可以建立语义上有意义的对应关系。此外，我们希望有一个简单、有效、无对象的模型来对齐图像对，例如图 1c 中的那些。

受能够在两个图像之间产生密集的像素到像素对应关系的光流方法的启发，我们提出了SIFT 流，采用光流的计算框架，但通过匹配 SIFT 描述符而不是原始像素。在 SIFT 流中，在每个像素处提取一个 SIFT 描述符来表征局部图像结构并编码上下文信息。使用离散的、不连续的、流量估计算法来匹配两个图像之间的 SIFT 描述符。SIFT 特征的使用允许跨不同场景/对象外观的稳健匹配，并且不连续性保留空间模型允许位于场景不同部分的对象的匹配。此外，设计了一种从粗到精的匹配方案，以显着加快流量估计过程。

光流仅应用于视频序列中的两个相邻帧之间，以获得有意义的对应关系；同样，我们需要定义SIFT 流的邻域。受大型图像数据库方法的最新进展的启发，我们将 SIFT 流的邻居定义为从大型数据库中检索到的最高匹配项。一些最近邻与查询图像共享相同场景特征的机会随着数据库的增长而增加，并且通过 SIFT 流获得的对应关系在语义上是有意义的。

使用 SIFT 流程，我们提出了一个基于对齐的大型数据库框架，用于图像分析和合成。根据 SIFT 流估计的密集场景对应关系，用于推断查询图像的信息从大型数据库中的最近邻居传输到该查询图像。在这个框架下，我们将 SIFT 流应用于两个新颖的应用程序：从单个静态图像进行运动预测，其中运动场从大型视频数据库中产生幻觉，以及运动传输，其中静止图像使用从类似移动场景传输的对象运动进行动画处理。我们还将 SIFT 流程应用回传统的图像对齐机制，例如卫星图像配准和人脸识别。通过这些示例，我们展示了 SIFT 流在计算机视觉和计算机图形学中的广泛应用的潜力。

Ⅱ 相关工作

Ⅲ SIFT流算法

密集SIFT描述符和可视化

SIFT描述符是一种系数特征表示，包括特征提取和检测，本文中只使用特征提取组件。对于每个像素，划分 $4\times4$ 元胞组，每个元胞中方向量化为8个bins，获得 $4\times4\times8=128$ 维向量。称每个像素SIFT描述符为SIFT图像。

为了可视化 SIFT 图像，作者从一组图像中计算 SIFT 描述符的前三个主成分，然后将这些主成分映射到 RGB 空间。在这个可视化中，具有相似颜色的像素可能意味着它们共享相似的局部图像结构。请注意，此投影仅用于可视化；在 SIFT 流中，整个 128 个维度都用于匹配。

SIFT 图像的可视化。为了可视化 SIFT 图像，（a）我们从一组图像中计算 SIFT 描述符的前三个主成分，然后（b）将这些主成分映射到 RGB 空间的主成分。对于（c）中的图像，我们计算每个像素的 128D SIFT 特征，将 SIFT 特征投影到 3D 色彩空间，并将 SIFT 图像可视化，如（d）所示。直观上，具有相似颜色的像素具有相似的结构。

尽管该 SIFT 可视化可能看起来模糊，如图2d所示，但 SIFT 图像确实具有高空间分辨率，如图 3 所示。作者设计了一个具有水平阶梯边缘的图像（图 3a），并在图 3c 中显示了图 3a的 SIFT 图像的第一分量。

SIFT 图像的分辨率。虽然直方图用于表示 SIFT 特征，但 SIFT 图像能够捕捉图像细节。对于（a）中具有水平阶梯边缘的图像，在（c）中显示了 SIFT 图像的第一个分量。分别在（b）和（d）中绘制（a）（蓝色）和（c）（红色）中的水平线切片。(d) 中的尖锐边界表明 SIFT 图像具有高分辨率。

现在得到了两个图像的每个像素的 SIFT 描述符；下一个任务是建立密集的对应关系来匹配这些描述符。

匹配目标

作者设计了一个类似于光流的目标函数来从两个 SIFT 图像估计 SIFT 流。与光流类似，作者希望 SIFT 描述符沿着流向量匹配，并且流场是平滑的，不连续性与对象边界一致。基于这两个准则，SIFT 流的目标函数公式如下：

令 ${ \bf p}=(x,y)$ 表示图像的网格，并且 ${ \bf w}({\bf p})=(u({\bf p}),v({\bf p}))$ 为在 ${\bf p}$ 的流。只允许 $u({\bf p})$ 和 $v({\bf p})$ 为整数并且假设它们各自只有 $L$ 个可能的取值。假设 $s_1$ 和 $s_2$ 为需要配准的SIFT图像， $\varepsilon$ 包含所有的空间近邻 (本文采用4近邻)，SIFT流的能量函数表示为：
$E({\bf w}) = \sum_{\bf p}{\rm min} ( \Vert s_1({\bf p})-s_2({\bf p}+{\bf w}({\bf p})) \Vert_1, t) \tag{1}$

$\eqalign{& \quad +\sum_{{\bf p}} \eta (\vert u({\bf p})\vert +\vert v({\bf p})\vert) \cr & \quad +\sum_{({\bf p},{\bf q})\in \varepsilon }\!\!\! {\rm min} (\alpha \vert u({\bf p})-u({\bf q})\vert, d)}\tag{2}$

$+{ \rm min} ( \alpha \vert v({\bf p})-v({\bf q})\vert, d),\tag{3}$

其中包含数据项、小位移项和平滑项（又名空间正则化）。

数据项限制流沿着 ${\bf w}({\bf p})$ ，小位移项限制在没有其他信息可用时流矢量尽可能小，平滑项限制相邻像素的流矢量是相似的。

在这个目标函数中，数据项和平滑项中都使用了截断的 L1 范数来解释匹配的异常值和流不连续性，其中 $t$ 和 $d$ 为阈值。

流场的可视化。每个像素表示一个流向量，其中方向和大小分别由像素的色调和饱和度表示。

作者使用双层循环信念传播作为基础算法来优化目标函数。与通常的光流公式不同，(3) 中的平滑项是解耦的，这允许我们分离水平流 $u({\bf p})$ 从垂直流 $v({\bf p})$ ，作者的模型的因子图如图5所示。设置了一个水平层u和垂直层v使用完全相同的网格，数据项连接相同位置的像素。在消息传递中，首先分别更新层内消息u和v，然后更新之间的层间消息u和v. 由于目标函数的函数形式截断了 L1 范数，使用距离变换函数来进一步降低复杂性和顺序置信传播 (BP-S) 以获得更好的收敛性。

双层置信度传播。我们将 SIFT 流的目标函数设计为水平解耦（u) 和垂直 (v）组件。

粗到细匹配方案

使用 $80\times80$ 的窗格计算 $145\times105$ 大小的图像需要50秒，而处理 $256\times256$ 大小的图像需要超过2小时的时间。

为了解决性能缺陷，作者设计了一个由粗到细的匹配方案，先在粗略的图像网格上估计流，再逐渐由粗到细地精细化流。这一过程如下所示。

金字塔上从粗到细 SIFT 流匹配的图示。

简单起见，用 $s$ 表示 $s_1$ 和 $s_2$ ，SIFT金字塔 $\{s^{(k)}\}$ 的建立如下： $s^{(1)}=s$ ， $s^{(k+1)}$ 由 $s^{(k)}$ 的平滑和下采样建立。令 ${\bf p}_k$ 为金字塔第 $k$ 层待匹配像素坐标， ${\bf c}_k$ 为搜索窗格的偏置或者质心， ${\bf w}({\bf p}_k)$ 为置信传播的最佳匹配。

在最顶层 $s^{(3)}$ ，大小为 $m\times m$ 的搜索窗口以 ${ \bf p}_3({ \bf c}_3={ \bf p}_3)$ 为中心，其中 $m$ 为 $s^{(3)}$ 的宽度（高度），置信传播之后，系统将流向量 ${\bf w}({\bf p}_3)$ 传递到下一层 ${\bf c}_2$ ，搜索窗口以 ${ \bf p}_2$ 为中心，窗口大小固定为 $n\times n$ ，其中 $n=11$ ，迭代这一过程直到 $s^{(1)}$ ，直到流 ${\bf w}({\bf p}_1)$ 估计出来。

当匹配从较粗的级别传播到较细的级别时，两个相邻像素的搜索窗口可能具有不同的偏移（质心）。我们修改了为截断L1范数开发的距离变换函数，以应对这种情况，其思想如图7所示。为了计算从像素 ${\bf p}$ 传递到其邻居 ${\bf q}$ 的消息，我们首先收集所有其他消息和数据项，并应用中的例程计算从 ${\bf p}$ 到 ${\bf q}$ 的消息，假设 ${\bf q}$ 和 ${\bf q}$ 具有相同的偏移量和范围。然后，通过每一步增加 ${\alpha}$ ，将函数扩展到范围之外，如图7a所示。我们将 ${\bf q}$ 相对于 ${\bf p}$ 的范围内的函数作为消息。例如，如果 ${\bf q}$ 的搜索窗口的偏移量为0， ${\bf q}$ 的偏移量为5，则在图7c中绘制从 ${\bf p}$ 到 ${\bf q}$ 的消息。如果 ${\bf q}$ 的搜索窗口偏移量为−2，否则，该消息如图7b所示。

利用截断L1范数生成距离变换函数。

使用提出的粗到细匹配方案和修改的距离变换函数，两个 256×256图像在具有两个四核 2.67 GHz Intel Xeon CPU 和 32 GB 内存的工作站上需要 31 秒，采用 C++ 实现。由于该算法可以并行化，因此可以通过 BP-S 算法的GPU 实现实现进一步的加速（高达 50 倍）。作者将此作为未来的工作。

一个自然的问题是，从粗到精的匹配方案是否可以达到与普通匹配方案相同的最小能量（仅使用一个级别）。我们随机选择了 200 对图像来估计 SIFT 流量，并分别检查使用粗到细方案和普通方案（非粗到细）获得的最小能量。对于这些256×256在图像中，从粗到细 SIFT 流的平均运行时间为 31 秒，而普通匹配的平均运行时间为 127 分钟。与图 8所示的普通匹配算法相比，从粗到细的方案不仅运行速度明显更快，而且在大多数情况下实现了更低的能量。这与光流社区的发现一致：从粗到细的搜索不仅加快了计算速度，而且还带来了更好的解决方

粗到细 SIFT 流不仅运行速度明显更快，而且在大多数情况下也能达到较低的能量。

SIFT Flow的领域

理论上，可以将光流应用于两个任意图像来估计对应关系，但是如果两个图像来自不同的场景类别，我们可能无法获得有意义的对应关系。事实上，即使我们将光流应用于视频序列中的两个相邻帧，我们也会假设密集采样，因此两个相邻帧之间存在显着重叠。类似地，在 SIFT 流中，当我们使用输入查询大型数据库时，我们将图像的邻域定义为最近邻。理想情况下，如果数据库足够大且足够密集以包含世界上几乎所有可能的图像，则最近的邻居将靠近查询图像，共享相似的局部结构。这激发了以下与光流的类比：

时间密集采样：光流::

所有图像空间中的密集采样：SIFT流

由于假设时域的密集采样能够进行跟踪，因此假设世界图像空间（的某些部分）中的密集采样能够实现场景对齐。为了使这个类比成为可能，我们收集了一个大型数据库，其中包含来自 731 个视频的 102、206 帧，主要来自街景。与时域类似，我们将查询图像的“相邻帧”定义为该数据库中的 N 个最近邻居。然后在查询图像与其 N 个最近邻之间建立 SIFT 流。

对于查询图像，我们使用快速索引技术来检索其最近的邻居，这些邻居将使用 SIFT 流进一步对齐。作为快速搜索，我们使用量化 SIFT 特征的空间直方图匹配[32]。首先，我们通过在从我们数据集中的所有视频帧中随机选择的 5、000 个 SIFT 描述符上运行 K-means 来构建一个包含 500 个视觉词 [48] 的字典。然后，在两级空间金字塔上得到视觉词的直方图，并使用直方图交集来衡量两幅图像之间的相似度。

其他场景指标（例如 GIST）也可用于检索最近邻。据报道，各种最近匹配算法在获取最近邻进行匹配时不会产生显着差异。

Ⅳ 视频检索实验

为描述相同场景/对象类别的图像对计算的 SIFT 流，其中视觉对应是明显的。

Ⅴ 密集场景对齐实验

来自单个图像的运动。（a）原始图像，（b）视频数据库中的最佳匹配，（c）（b）的时间运动场，（d）（c）的扭曲运动并叠加在（a）上，根据估计的SIFT流， (e) (a) 的“ground truth”时间运动（从包含 (a) 的视频中估计）。预测运动基于其他视频中存在的运动，其图像内容与查询图像相似。

Ⅵ 图像对齐人脸识别实验

SIFT 流可用于对齐卫星图像。(a) 和 (b) 两张相隔四年拍摄的火星卫星图像显示了不同的局部外观。稀疏特征检测和匹配的结果显示在（c）、（d）、（e）、（f）和（g）中，而SIFT流的结果显示在（h）、（i）、（ j) 和 (k)。

SIFT 流可以考虑用于人脸识别的姿势、表情和光照变化。

结论

我们引入了密集场景对齐的概念：估计跨场景图像之间的密集对应关系。我们提出了 SIFT 流来匹配具有空间规律的显着局部图像结构，并推测使用 SIFT 流在大型数据库中进行匹配会导致场景对齐的语义上有意义的对应关系。大量实验验证了我们的理论，表明尽管匹配图像的外观和空间布局存在显着差异，但 SIFT 流能够建立密集的场景对应关系。我们进一步提出了一种用于图像分析和合成的基于对齐的大型数据库框架，其中根据 SIFT 流估计的密集场景对应关系，将图像信息从大型数据库中的最近邻居传输到查询图像。该框架具体实现在单个图像的运动预测、通过对象转移和人脸识别的运动合成中。我们还将 SIFT 流程应用于传统的图像对齐问题。这些实验的初步成功表明，使用 SIFT 流的场景对齐可以成为计算机视觉和计算机图形学中各种应用的有用工具。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 217,509评论 6赞 504
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,806评论 3赞 394
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 163,875评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,441评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,488评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,365评论 1赞 302
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,190评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,062评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,500评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,706评论 3赞 335
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,834评论 1赞 347
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,559评论 5赞 345
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,167评论 3赞 328
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,779评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,912评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,958评论 2赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,779评论 2赞 354