【文献阅读笔记】2017-CVPR-Convolutional neural network architecture for geometric matching

Abstract

解决的问题：给出两张图片之间的联系所符合的几何变换模型（例如仿射变换、薄板样条插值）。

本工作的贡献主要有三方面：

给出两张图片之间的联系所符合的几何变换模型。
证明网络参数可以从生成的图像中训练，无需人工标注。
该模型在实例层面和类别层面的匹配中都能够表现出很好的结果。

1. Introduction

传统的估计图像间联系的方法表现不好的情况：

同个类别在表现上的变化
图像中场景布局的变化或非刚性变形（可能需要复杂的几何学模型和过多的参数）

我们用一个CNN结构来模拟标准的匹配过程：
首先，用可训练的卷积神经网络特征替代标准的局部特征，可以处理要匹配的图像之间外观有巨大变化的情况；
其次，开发了可训练的匹配和转换估计层，可以具有鲁棒性地处理噪声和错误的匹配。

成果：一个用于几何匹配任务的可训练的CNN结构，可以应对外观上有较大变化的情况，因此适于应用在实例层面以及分类层面的匹配问题上。

2. Related Work

经典的找到图片联系的方法包含确认兴趣点、计算局部描述子。此方法在实例层面的匹配上表现不错，但在分类层面的匹配上缺乏泛化能力。

最近也有很多使用CNN来学习更强大的特征描述子的方法，但这些方法仍将图片划分为一系列局部块，独立地从每块上提取描述子。（提取描述子的方法之后还被拿来和距离测度的方法作比较。）
而本文是将一张图片整体看待，这样可以更大程度地捕捉到图像各部分之间的相互影响。

本方法是一种端到端的方式，全部是可训练的，在用模型求对于几何匹配的估计时不需要进行任何最优化过程，也不需要通过目标建议来引导。

3. Architecture for geometric matching

网络结构：

网络结构.PNG

输入图像 $I_A$ 和 $I_B$ 通过一个由卷积层组成的孪生结构，提取出类同于传统方法中稠密局部描述子的特征图 $f_A$ 和 $f_B$
匹配两张图片的特征图，得到一张暂定的一致性图 $f_{AB}$
回归网络，直接输出具有鲁棒性的几何模型的参数 $\hat{\theta}$

网络的输入是两张图片，输出是选出的几何模型的参数。

1、特征提取层：

一个无全连层的CNN用于接收输入图像，产生特征图 $f\in\Bbb R^{h\times w \times d}$ ，可解释为 $h\times w$ 的稠密空间网格下的 $d$ 维局部描述子。

使用在pool4处（ReLU单元之前）截断的VGG-16网络进行特征提取，之后是对于每个特征的L2归一化。使用的模型已经在ImageNet上做过图像分类任务的预训练。

2、匹配网络层：

生成暂定联系的传统方法：

先计算两张图中所有对应的描述子间的相似性，在所有用于几何估计的必要信息都包含到了成对描述子的相似性以及它们的空间位置之后，便可将最初的描述子抛弃。之后，便可通过设立门限值或者只保留那些在其空间邻域上包含有最接近（相似）的特征的匹配。

匹配层（本文的方法）：

匹配网络层.PNG

这个过程简单来说就是：首先，通过一个相关性层计算所有成对的描述子的相似性。之后处理相似性分数，利用归一化使那些较为模糊的匹配（非最佳匹配）大幅降低权重。

具体来说，在给出L2归一化的稠密特征图 $f_A,f_B\in\Bbb R^{h\times w \times d}$ 后，先从相关性层输出相关图 $c_{AB}\in \Bbb R^{h \times w \times (h \times w)}$ 。相关性层包含在每个位置上做点积的一对独立描述子 $\rm f\it_A \in f_A$ 和 $\rm f\it_B \in f_B$ ：
$c_{AB}(i,j,k)=\rm f \it_B(i,j)^T \rm f \it_A(i_k,j_k)$
也就是说 $c_{AB}$ 是将所有B中的某一个特征 $\rm f \it _B$ 和A中的全部特征 $f_A$ 做点积运算后的结果。 $k$ 表示的是A中当前的特征序号。
之后在相关性图的每个空间位置上应用一个通道方向（即图中k那个方向）的归一化以产生最终的暂定的一致性图 $f_{AB}$ 。归一化过程先通过ReLU使负相关性变为0，之后是L2归一化。这样能放大那些 $\rm f \it _B$ 只与 $f_A$ 中的某一个特征很相关的情况的分数，而压低那些 $\rm f \it _B$ 能与 $f_A$ 中多个特征匹配（可能是由于杂乱或重复图样的存在）的情况中非最佳匹配点的权重。（其实就是这个意思：我们事先并不知道相似度的绝对范围，所以我们更加关注于一张图中每个相似度的相对大小。把它们做归一化实际上就是让原来值比较大的值变得相对更大，让原来值比较小的值变得相对更小。）

求相关性和归一化这两个过程都是关于输入描述子可导的（ReLU从数学上来看在0点不可导，不过我们一般会规定在0点的导数，这样整个函数就是可导的了），这样可以实现反向传播，使该模型可以做到端到端的学习。

3、回归网络

回归网络.PNG

之前得到的归一化相关性图通过一个回归网络，直接估计出关联两张图片的几何转换的参数 $\hat{\theta}$ 。

如图所示，堆叠两个后跟批归一化和ReLU激活函数的卷积块，并在最后添加一个全连层以回归出转换的参数。

这样的网络结构模拟的是传统方法中用于只保留那些在其空间邻域上与其它匹配相符的匹配的方法。

4、转换层级

转换层级.PNG

可以先将变换估计成一个简单的变换，之后再进一步增加变换的复杂性。这里遵循了此种策略（如上图所示），先将图像A和图像B之间的转换估计成一个6维的仿射变换。将得到的这个初步变换应用到A上，使之与B初步匹配，之后再将这个变换后的A和图像B之间的转换估计成一个具有18个参数的TPS变换。最终对于整个变换过程的估计就由一个仿射变换和一个TPS变换组成（整体也是一个TPS变换）。

4. Training

损失函数

设 $\theta_{GT}$ 是真实的转换参数， $\hat \theta$ 是对于转换参数的估计。我们构造图片A中的网格点，分别对A使用真实转换 $\cal T \it_{\theta_{GT}}$ 和对估计出的转换 $\cal T \it_{\hat \theta}$ ，通过对对应网格点求平方距离加和来衡量两种转换后网格点的差异：
$\cal L \it (\hat{\theta}, \theta_{GT})=\frac{1}{N}\sum_{i=1}^{N}{\rm d \it (\cal T \it_{\hat \theta}(g_i),\cal T \it _{\theta_{GT}}(g_i))^2}$
其中 $\cal G \it={g_i}={(x_i,y_i)}$ 是使用的均匀网格， $N=|\cal G \it |$ 是网格点数量。定义网格点 $x_i,y_i$ 都是区间[-1,1]内间隔为0.1的点。

训练数据

模型的训练过程需要完全有监督的训练数据，包括大量图像对以及它们之间的几何转换关系。

使用“综合生成”方法生成训练数据

综合生成法.PNG

从公开数据集的图像中采样出 $I_A$ ，应用随机的转换 $\cal T \it_{\theta_{GT}}$ 来生成 $I_B$ 。具体来说，“综合生成”指的是裁剪原始图片的中心部分作为 $I_A$ ，而使用在裁剪部分 $I_A$ 外再添加一些padding的图像区域来生成转换图像 $I_B$ （因为B可能会扭曲，从而A图外面一点的部分有可能进入B图范围内）。

5. Experimental results

定量结果

在Proposal Flow数据集上做任务：检测出图A中预先确定好的关键点在图B中的对应位置。结果胜过所有当前最好方法。

定量结果.PNG

定性结果

无论是图像分类级别的匹配，还是实例级别的匹配，结果都是非常准确的。

图像分类级别的匹配（和上面定量结果的表格是相同的实验）：

图像分类级别定性结果.PNG

实例级别的匹配：

实例级别定性结果.PNG

最后还有一些关于卷积过滤器的讨论，暂略……

附：词汇表

geometric 几何学的
affine transformation 仿射变换
mimic 模仿，模仿的
manual 手工的，人工的
thin-plate spline (TPS) 薄板样条插值
synthetically 综合地，合成地
inlier：可以被模型描述的正确数据（对应于outlier：偏离正常范围很远、无法适应模型的数据）
image manipulation 图像处理
prune 删除，修剪
non-rigid deformations 非刚性变形
in a manner 在某种意义上，在某种程度上
build on 依赖
descriptor 描述子
homography estimation 单应估计
differentiable 可微分的
clutter 杂乱，混乱
substantial 大量的，结实的，本质，重要材料
tentative 试验性的，暂定的，假设
analogous 相似的，类似的
retrieval 检索，恢复
discriminative 区别的，有识别力的
scalar product 点积
repetitive 重复的
consensus 一致
hierarchy 层级
metric 度量标准
illumination 光照

最后编辑于：2020.03.21 16:15:46

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 211,123评论 6赞 490
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,031评论 2赞 384
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 156,723评论 0赞 345
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,357评论 1赞 283
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,412评论 5赞 384
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,760评论 1赞 289
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,904评论 3赞 405
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,672评论 0赞 266
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,118评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,456评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,599评论 1赞 340
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,264评论 4赞 328
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,857评论 3赞 312
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,731评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,956评论 1赞 264
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,286评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,465评论 2赞 348

【文献阅读笔记】2017-CVPR-Convolutional neural network architecture for geometric matching

【文献阅读笔记】2017-CVPR-Convolutional neural network architecture for geometric matching

相关知识

仿射变换

薄板样条插值（TPS）

Abstract

1. Introduction

2. Related Work

3. Architecture for geometric matching

网络结构：

1、特征提取层：

2、匹配网络层：

生成暂定联系的传统方法：

匹配层（本文的方法）：

3、回归网络

4、转换层级

4. Training

损失函数

训练数据

使用“综合生成”方法生成训练数据

5. Experimental results

定量结果

定性结果

附：词汇表

推荐阅读更多精彩内容