摘要
我们提出了一种多尺度多通道深度神经网络框架,该框架首次产生了超越人类的草图识别性能。我们卓越的性能是由于在模型中明确嵌入了草图的独特特征:(1)设计用于素描而非照片的网络结构。(2)贝叶斯联合的多尺度网络合奏,说明徒手素描中表现出的抽象层次不同。 我们表明,专门为自然物体的照片而设计的最先进的深度网络在草图识别方面表现不佳,无论它们是使用照片还是草图进行训练。另一方面,我们的网络不仅可以在迄今为止最大的手绘草图数据集上提供最佳性能,而且体积小,仅使用CPU即可进行有效的训练。
1.介绍
在本文中,我们提出了一种新颖的深度神经网络(Sketch-a-Net),用于徒手草图识别,它是专门为适应草图的独特特性而设计的,包括多个抽象级别并且在其中顺序排列性质。 DNN,尤其是深度卷积神经网络(CNN)最近在用表示学习代替表示手工来解决各种视觉问题方面取得了巨大的成功[13,22]。但是,现有的DNN主要是为照片设计的。我们通过实验证明,将它们直接用于草图建模问题不会比手工制作的功能产生任何改进,这表明草图需要特殊的模型架构。为此,我们的Sketch-a-Net具有三个与现有DNN区别的关键特征:(i)大量模型架构和学习参数选择,专门用于解决草图的标志性和抽象性; (ii)设计为模拟每个草图中笔划顺序的多通道体系结构; (iii)解决抽象和稀疏性的可变性的多尺度网络集成,然后是联合贝叶斯融合方案以利用不同尺度的互补性。整体模型尺寸较小,在参数数量方面比传统的AlexNet [13]小7倍,因此,可以有效地独立于特殊硬件(即GPU)进行训练。
我们的贡献概括如下:(i)首次提出了一种基于DNN的表示学习模型,以代替传统的基于手工特征的草图表示; (ii)我们演示了如何将草图中的顺序信息嵌入到DNN架构中,进而提高草图识别性能; (iii)我们提出了一种多尺度网络合奏,通过联合贝叶斯融合将在不同尺度下学习的网络融合在一起,以解决草图中抽象层次的可变性。 对最大的免提草图基准数据集TU-Berlin草图数据集[6]的大量实验表明,我们的模型明显优于现有方法,甚至可以在草图识别上击败人类。
3.方法
在本节中,我们介绍了框架的三个关键技术组件。 首先,我们将详细介绍基本的CNN架构,并概述与传统的面向照片的DNN(第3.1节)相比,Sketch-a-Net的重要考虑事项。 接下来,我们解释我们简单而新颖的概括,它使DNN能够利用草图特有的笔划顺序信息(第3.2节)。 然后,我们引入了一种多尺度的网络集合,以利用联合的贝叶斯融合方法来利用抽象尺度的互补性来解决抽象水平的可变性(第3.3节)。 图1说明了我们的总体框架。
3.1用于草图识别的CNN
我们的特定体系结构如下:首先,我们使用五个卷积层,每个卷积层带有整流器(ReLU)[15]单元,而第一,第二和第五层后面是最大池化(Maxpool)。 第六卷积层的过滤器大小(表1中的索引14)为7×7,与先前合并层的输出相同,因此它是完全连接的层。 然后,再附加两个完全连接的层。 辍学正则化[8]应用于前两个完全连接的层。 最后一层具有250个输出单元,对应于250个类别(即TU-Berlin草图数据集中的唯一类的数量),我们在其上放置了softmax损失。 CNN的详细信息总结在表1中。请注意,为了简化表示,我们没有明确将完全连接的层与其卷积等效项区分开。
提出大多数CNN时都没有解释为什么选择诸如过滤器大小,步幅,过滤器数量,填充和合并大小之类的参数。 尽管不可能详尽地验证每个免费(超)参数的效果,但我们讨论了一些与经典设计以及专为草图设计的要点一致的要点,因此与图片为目标的CNN结构有很大的不同,例如AlexNet [13]和DeCAF [4]。
Sketch-a-Net和面向照片的CNN架构之间的共性
过滤器数量:在我们的Sketch-a-Net和最近的面向照片的CNN中[13,22],过滤器的数量都随着深度的增加而增加。 在我们的情况下,第一层设置为64,并且在每个合并层(指示:3!4、6!7和13!14)之后加倍,直到512。
跨距:与面向照片的CNN一样,将第一层之后的卷积层的跨距设置为1。 这样可以保留尽可能多的信息。
填充:零填充仅用于L3-5(索引7、9和11)。 这是为了确保输出大小是整数,如面向照片的CNN [1]。
我们的草图网络架构中的独特方面
较大的第一层过滤器:第一卷积层中过滤器的大小可能是最敏感的参数,因为所有后续处理都取决于第一层输出。 尽管经典网络使用11x11的大型过滤器[13],但当前的研究趋势[27]却朝着越来越小的过滤器发展:最近的[22]先进网络将其成功很大程度上归功于使用微小的3x3个过滤器。 相反,我们发现较大的过滤器更适合草图建模。 这是因为草图缺少纹理信息,例如,基于纹理,照片中的小圆形补丁可被识别为眼睛或按钮,但这对于草图是不可行的。 因此,较大的过滤器有助于捕获更多结构化的上下文,而不是纹理化的信息。 为此,我们使用的过滤器尺寸为15x15。
无局部反应归一化:局部反应归一化(LRN)[13]实现了一种形式的侧向抑制,这是在真实的神经元中发现的。 这在当代的CNN识别架构中得到了广泛使用[1,13,22]。 但是,实际上LRN的好处是由于提供了“亮度标准化”。 在草图中这不是必需的,因为在画线图中亮度不是问题。 因此,删除LRN层可以使学习速度更快,而不会影响性能。
更大的合并大小:最近的许多CNN都使用2x2的最大合并步幅2 [22]。 它有效地将图层大小减少了75%,同时带来了一些空间不变性。 但是,我们使用以下修改:步幅跨度为2的3×3合并大小,从而生成重叠的合并区域[13]。 我们发现,这带来了computation 1%的改进,而无需进行大量额外的计算。
更高的dropout:更深的神经网络通常可以提高性能,但存在过拟合的风险[22]。 最近的CNN成功[1、13、22]使用(非常大的)ImageNet数据集[3]进行训练,并采用辍学[8]正则化(将单元激活随机设置为零)进行处理。 由于草图数据集通常比ImageNet小得多,因此我们通过设置50%更高的dropout来对此进行补偿。
计算成本更低:Sketch-a-Net中的参数总数为850万,对于现代的CNN而言,这相对较小。 例如,经典的AlexNet [13]具有6000万个参数(大7倍),而最新的技术水平[22]已达到1.44亿个。
3.2多通道草图笔划顺序建模
笔划顺序:笔划顺序是与触摸屏上绘制的草图相关的关键信息,与传统照片相比,传统照片中并行捕获所有像素。 尽管此信息存在于TU-Berlin之类的主要草图数据集中,但现有工作通常忽略了它。 为了提供有关此的直观信息,图2展示了“闹钟”类别中的一些草图,其中笔划根据笔划顺序分为三部分。 显然,就首先要绘制哪些语义部分而言,有不同的素描策略,但是通常首先要绘制主要轮廓,然后是细节,这是最新的研究[6]。 因此,对笔划排序信息建模有助于区分类别相似但类别不同的类别。
描边顺序建模:我们提出了一种简单但有效的方法,通过将Sketch-a-Net扩展到多通道CNN来对描边顺序进行建模:将描边离散成三个连续的组(图2),并将这些部分视为不同的部分第一层的渠道。具体来说,我们使用三个笔触部分来生成包含笔触部分组合的六个图像。如图1所示,前三个图像仅包含三个部分。接下来的两个包含两个部分的成对组合,第三个是所有部分的原始草图。我们的Sketch-a-Net在第二节中进行了描述。然后修改3.1,以将六个通道图像作为输入(即第一层卷积滤波器的大小更改为15×15×6)。这种多通道模型具有两个优点:(i)通过反向传播训练自动了解早期和晚期卒中的相对重要性; (ii)这是对现有体系结构的简单而有效的修改:与单通道Sketch-a-Net相比,参数的数量和培训时间仅增加了1%。