【论文阅读】卷积神经网络能编码多少位置信息?

How Much Position Information Do Convolutional Neural Networks Encode

引用: [1] ISLAM A, JIA S, BRUCE NeilD B. How Much Position Information Do Convolutional Neural Networks Encode[J]. arXiv: Computer Vision and Pattern Recognition, 2020.

论文链接: https://arxiv.org/abs/2001.08248

代码链接: https://github.com/SenJia/Position-Information

论文概述

经典的 CNN 模型被认为是空间不可知的,因此胶囊网络[1]或循环网络[2]已被用于对学习到的特征层内的相对空间关系进行建模。CNN更多地依赖于纹理和颜色等信息而不是形状[3]。然而,位置信息为对象可能出现在图像中的位置提供了强有力的线索(例如天空中的鸟类)。

因此,论文提出了一个新的假设,即CNN可以潜在的学到位置信息,并提出了PosENet用于验证猜想。实验表明,更大的感受野或位置信息的非线性提取进一步增加了绝对位置的提取。同时,当不存在语义线索并且语义信息的干扰表明对什么(语义特征)和在哪里(绝对位置)的联合编码时,这种恢复是可能的。实验结果表明zero padding和borders被CNN视作作为anchor,随着空间抽象的出现,空间信息被导出并最终在整个图像上传播。

Position Encoding Network (PosENet)

CNN自然会在早期卷积阶段提取精细级别的高空频细节(例如边缘、纹理、线条),而在编码的最深层,网络会产生最丰富的类别特征表示。

PosENet由两个关键组件组成:Encoderf_{eng}位置编码模块f_{pem}。编码器网络在不同的抽象层次上提取特征,从较浅的层次到较深的层次。位置编码模块以编码器网络中的多尺度特征作为输入,最后预测绝对位置信息。

Encoderf_{eng}使用基于ResNet和VGG的架构通过去除平均池化层和FC层来构建。注意,在训练编码网络时,只训练位置编码模块f_{pem}专注于提取位置信息,而编码器网络则保持预训练的初始化权重不变

位置编码模块以多尺度特征(f_{pos}^1,f_{pos}^2,f_{pos}^3,f_{pos}^4,f_{pos}^5)为输入,通过变换函数T_{pos}(卷积层)生成所需的位置图。变换函数T_{pos}首先在特征映射上应用双线性插值操作,使其具有相同的空间维度,从而得到一个特征映射f_{pos}^c。然后将它们拼接在一起,然后进行一系列k × k卷积操作。

Encoderf_{eng}的主要目的是验证在分类标签上训练时是否隐式学习了位置信息。此外,位置编码模块f_{pem}对隐藏的位置信息与梯度之间的关系进行建模,类似于ground-truth mask。如果特征映射中没有编码的位置信息,则期望的输出是随机的,反之亦然(忽略来自图像内容的任何指导)。

生成ground-truth mask

H、V、G、HS和VS分别代表五种不同的ground-truth模式、水平和垂直梯度、二维高斯分布、水平和垂直条纹。生成ground-truth mask是将一个归一化的类似梯度的1位置图作为ground-truth,如图所示。首先在水平(H)和垂直(V)方向上生成类似梯度的蒙版。类似地,我们应用高斯滤波器来设计另一种类型的ground-truth图,高斯分布(G)。生成这三个模式的关键动机是验证模型是否可以在一个或两个轴上学习绝对位置。此外,还创建了两种类型的重复图案,水平和垂直条纹,(HS, VS)。无论方向如何,多级特征中的位置信息都可能通过编码模块f_{pem}的转换来建模。基于梯度的ground-truth设计可以被认为是一种随机标签,因为输入图像和真值之间在位置方面没有相关性。由于位置信息的提取与图像的内容无关,可以选择任何图像数据集。

实验细节

使用ImageNet分类任务预训练的网络初始化Encoderf_{eng}位置编码分支中的新层使用xavier初始化进行初始化。使用随机梯度下降训练网络15次,动量为0.9,权值衰减为1e−4。在训练和推理过程中,我们将每个图像的大小调整为固定大小224×224。由于多层次特征的空间范围不同,将所有的特征映射对齐为28 × 28的大小。

预训练模型中的位置信息

如表1所示,PosENet (VGG和ResNet)可以很容易地从预训练的CNN模型中提取位置信息,尤其是基于ResNet的PosENet模型。然而,单独训练PosENet(PosENet)在不同的模式和源图像上获得低得多的值。该结果意味着仅从输入图像中提取位置信息是非常困难的。**PosENet只有在与深度编码器网络耦合时才能提取与ground-truth mask一致的位置信息。然而,与其他模式相比,重复模式(HS和vs)的性能较低,这是由于模型复杂性,特别是地面真值和绝对位置之间缺乏相关性。

上图显示了跨不同模式的几种体系结构的定性结果。可以看到H、G和HS模式对应的预测与ground-truth mask之间的相关性,这进一步揭示了这些网络中位置信息的存在。

堆叠层和不同卷积核大小的影响

在PosENet中应用更多的层可以改善所有网络的位置信息读出。一个原因可能是堆叠多个卷积滤波器可以使网络具有更大的有效接受场,例如,两个3 × 3卷积层在空间上等于一个5 × 5卷积层(Simonyan & Zisserman, 2014)。另一种可能性是位置信息可以以一种需要多于一阶推理的方式表示(例如线性读出)。

可以看到,与较小的卷积核相比,较大的卷积核可能捕获更多的位置信息。这一发现表明,位置信息可能在空间上分布在层内和特征空间中,因为更大的接受野可以更好地解析位置信息。

位置信息存储在哪里?

这种比较表明,更深的特征包含更多的位置信息,这证实了人们普遍认为的顶层视觉特征与全局特征相关联。

位置信息从何而来?

从表4中可以看出,没有零填充的VGG16模型在自然图像上的性能远低于默认设置(padding=1)。类似地,通过应用零填充向PosENet引入位置信息。padding=1的PosENet(在帧周围连接一个零)比原始(padding=0)获得更高的性能。当padding=2时,位置信息的作用更加明显。

参考文献

[1] SABOUR S, FROSST N, HINTON GeoffreyE. Dynamic Routing Between Capsules[J]. Neural Information Processing Systems,Neural Information Processing Systems, 2017.

[2] VISIN F, KASTNER K, CHO K, et al. ReNet: A Recurrent Neural Network Based Alternative to Convolutional Networks.[J]. arXiv: Computer Vision and Pattern Recognition,arXiv: Computer Vision and Pattern Recognition, 2015.

[3] Nicholas Baker, Hongjing Lu, Gennady Erlikhman, and Philip J. Kellman. Deep convolutional networks do not classify based on global object shape. PLOS Computational Biology, 2018.

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,542评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,596评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,021评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,682评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,792评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,985评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,107评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,845评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,299评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,612评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,747评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,441评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,072评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,828评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,069评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,545评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,658评论 2 350

推荐阅读更多精彩内容