【论文解读】CNN深度卷积神经网络-Network in Network

26.jpg

前言

本文主要CNN系列论文解读——Network in Network的简介、模型结构、网络结构的代码实现等。原文发表于语雀文档，排版更好看，目录如下：
[【论文解读】CNN深度卷积神经网络-Network in Network · 语雀www.yuque.com

图标

【论文解读】CNN深度卷积神经网络-Network in Network

1.简介

《Network in Network》是原于2013年发表的论文，论文中描述了一种新型卷积神经网络结构，就叫做Network in Network(NIN)。 LeNet,AlexNet,VGG都秉承一种设计思路：先用卷积层构成的模块提取空间特征，再用全连接层模块来输出分类结果。这里NIN提出了一种全新的思路：由多个由卷积层+全连接层构成的微型网络(mlpconv)来提取特征，用全局平均池化层来输出分类。这种思想影响了后面一系列卷积神经网络的设计。

1.1 资源下载

【2013】【Network in Network】1312.4400.pdf

2.Abstract

Abstract
We propose a novel deep network structure called “Network In Network”(NIN)to enhance model discriminability for local patches within the receptive field. Theconventional convolutional layer uses linear filters followed by a nonlinear acti-vation function to scan the input. Instead, we build micro neural networks withmore complex structures to abstract the data within the receptive field. We in-stantiate the micro neural network with a multilayer perceptron, which is a potentfunction approximator. The feature maps are obtained by sliding the micro net-works over the input in a similar manner as CNN; they are then fed into the nextlayer. Deep NIN can be implemented by stacking mutiple of the above describedstructure. With enhanced local modeling via the micro network, we are able to utilize global average pooling over feature maps in the classification layer, which iseasier to interpret and less prone to overfitting than traditional fully connected layers. We demonstrated the state-of-the-art classification performances with NIN on CIFAR-10 and CIFAR-100, and reasonable performances on SVHN and MNIST datasets
翻译
我们提出一种新的深层网络结构，称为“网络中的网络”(NIN)，以提高模型对感受野内局部特征块的辨识能力。传统的卷积层使用线性滤波器和非线性激活函数对处理输入。相反，我们构建具有更复杂结构的微神经网络来抽象感受野中的数据。我们用多层感知器建立了微型神经网络，它是一个有效的函数逼近器。将微型神经网络在输入上滑动，得到特征图，方法与CNN相似;然后它们被送入下一层。通过上述结构的多重叠加，可以实现深层NIN。通过微网络增强的局部建模，我们能够利用分类层的特征图上进行全局average pooling，这比传统的全连接层更容易解释，也更不容易发生过拟合。我们使用NIN在CIFAR-10和CIFAR-100达到了最佳的分类性能，并在SVHN和MNIST数据集上也表现出色。

3.网络结构

3.1 示意图

图1.jpg

图1:线性卷积层与MLP层(多层感知机)的比较。 (a)为线性卷积层，包含一个线性滤波器；而(b)是一个微型网络MLP层(论文中使用的是b)。

图2.jpg

图2：论文中Network in Network整体架构，包含三个MLP层+一个全局average pooling层

3.2 Network特点

NIN由三个mplconv层 + 一个GAP全局平均池化层组成
一个mplconv即一个微型神经网络，故整体架构称为NIN:Network in Network
微型网络mplconv，内部由多层感知机实现（其中包含1个conv层+2个fc层）
mpl中感知机层数是可以调整的；同样mlpconv层作为一个微型网络结构，也可以被用在卷积层之间，个数随需调整。
NIN网络用微型网络mlpconv层代替了传统的卷积层；用GAP代替了传统CNN模型中末尾的全连接层。目的和优势见论文解读。

4.论文解读

1.介绍

卷积神经网络由卷积层和池化层交替组成。卷积层取线性filter和感受野的内积，然后在输入的每个局部用非线性激活函数，产生的结果称为特征图。作者认为，传统CNN中卷积filter相当于一个广义线性模型(GLM)，而GLM的抽象水平较低，用更有效的非线性函数逼近器代替GLM可以增强局部模型的抽象能力。这里讲抽象能力高，是指当输入有局部变化时，输出特征保持不变。

在NIN中，GLM被一个“微型网络”结构代替，这就是一个通用的非线性函数逼近器。论文中的微型网络用多层感知机实现，故将此微型网络称为mplconv，其不仅是一个通用的函数逼近器，还可以通过反向传播进行计算。函数逼近器的概念即利用函数去逼近和拟合一组数据的分布，譬如一组数据大致呈现直线状分布，y = kx + b即可作为一个函数逼近器，一组数据呈现抛物线状，可用y = kx^2 + b作为逼近器。

论文中的网络架构由多个mplconv叠加而成，故称为Network in Network(NIN)。在NIN中最后的几层并没有用传统的全连接层，而是直接将最后一个mplconv的feature mas在空间上的均值(通道上取均值)通过GAP全局均值池化得到各个分类的置信度，最后送入softmax层进行分类。作者表示，传统的全连接层就相当于一个黑箱，反向传播时，很难解释图像分类的类别信息是如何从全连接层传递到前面的卷积层，且全连接器严重依赖dropout,否则会导致过拟合的问题；作为对比，GAP这样的设计更有意义，可解释性更好，因为其突出了feature maps和类别之间对应的关系，而且GAP本身就是一个结构正则化器，天然防止过拟合。

2.卷积神经网络

3.Network in Network

经典的卷积神经网络由交替堆叠的卷积层和空间池化层组成。卷积层通过线性卷积filter生成特征图，然后经过非线性激活函数(整流器、sigmoid、tanh等)处理。经典的卷积过程，计算特征图如下：[图片上传失败...(image-b31677-1583758746922)]这里(i,j)表示计算得到的特征图的像素坐标；xij表示一个以i,j为中心的输入块，k用来表示特征图的通道维数。

这里作者提到(1.Introduction中也提及)，当潜在的待分类图像是线性可分时，通常这类卷积计算是没问题的，但当目标抽象度较高，这类线性函数逼近器就无法较好的工作，于是在卷积后通常加上relu等非线性激活单元来提高非线性部分来提高非线性。

当潜在特征的实例是线性可分的时，CNN的线性卷积是可以胜任的。然而，实现良好抽象通常意味着输入数据的高度非线性。在传统的CNN中，可以通过大量使用filter来捕捉特征的不同变体，不过针对单个特征实例使用大量filter会给下一层的计算打来很大开销(因为下一层的特征往往较大，而它需要综合和计算来自上一层特征的所有变化组合)。基于此，作者认为在将每个局部特征组合成更高级特征之前，对其进行更好的抽象将是有益的。于是通过在网络结构中引入微型网络（MLP）来实现这一点，MLP的作用即为局部特征块提取出更抽象的特征，从而在送入下一层之前，增加抽象性。

作者还提到，Maxout Network通过最大池化可以大幅减少卷积后特征图的数量，线性函数的最大化使得分段线性逼近器能够逼近任何凸函数。与常规卷积层相比，maxout网络更有效，因为它可以分离凸集内的特征。这项改进使maxout网络在多个基准数据集上具有最佳性能。然而这里的前提是：所有特征都处于空间中的凸集内，所以这并不通用，而作为对比NIN的结构就是更通用的函数逼近器。

3.1 MLP卷积层

在特征的分布情况未知的情况下，通过使用更通用的函数逼近器来对局部块进行提取，因为更能逼近特征的抽象表示。Radial basis network和多层感知机(MLP)是常用的通用函数逼近器，我们选择MLP的目的有2：

1.MLP和卷积层良好兼容
2.MLP本来就是深度模型，符合特征重用的思想

mlpconv的计算过程如下：[图片上传失败...(image-60f760-1583758746923)]n表示MLP的layer层数，MLP中同样用线性整流单元(relu)做激活函数。

从跨通道池化的角度来看，公式等效于在正常卷积层上进行级联跨通道参数池化。每个池化层在输入的特征图上进行加权线性重组，然后通过relu，特征在一层层的跨通道池化中被交叉重组，使得各channel上的特征可跨通道交互和互相学习。这样的结构等价于1×1卷积(同样可以合并多通道，使得各个channel上的参数可交互)，故在代码实现中mlpconv中的全连接层，也可以用1×1的conv层来等价代替。

3.2 全局平均池化GAP

传统CNN结构中卷积层后跟着的是全连接层然后经softmax层输出分类，最后的全连接层有增加过拟合的风险；这里作者将全连接层替换成了GAP全局平均池化层。作者在论文中表面，用GAP替换了传统FC层主要有两点优势：

1.增强了特征映射和类别之间的对应关系，更符合卷积的结构，因此特征图就更容易对应上最后要输出分类的类别置信度；
2.没有了全连接层，减少了大量需要学习的参数，也避免了FC层过拟合的发生。

此外，全局平均池化汇总了空间信息，因此对输入特征的空间转换更加加健壮。

3.3 NIN结构

26.jpg

如图，是一个NIN的结构，包括3个mplconv层 + １个全局平均池化层，一个mplconv中是一个3层的感知机（1卷积层+2个全连接层）
作者表示，mpl中感知机层数是可以调整的，同样mlpconv层作为一个微型网络结构，也可以被用在卷积层之间，个数随需调整。

4. 实验

4.1概述

作者评估了四个基准数据集：CIFAR-10,CIFAR-100,SVHN和MNIST,所有的训练均采用上图中的NIN结构。
除最后一个mplconv外，所有层都应用了dropout，另外也使用了Krizhevsky等人使用的weight decay用于正则化。具体的训练采用了类似Krizhevsky的训练步骤，batch size = 128,从初始学习率开始训练，直到准确率停止提高，再将学习率降低10倍，最后再降低10倍，直到训练结束。

4.2 CIFAR-10

CIFAR-10数据集由50000个训练图像和10000个测试图像，图像大小32×32的3通道图片，总共10个分类。在CIFAR-10上，NIN取得了10.41%的训练误差，比之前最好成绩提高了1%以上。

4.3 CIFAR-100

CIFAR-100的图像数量和尺寸于CIFAR-10相同，只是分类种类增加至了100个类。NIN+Dropout的效果能达到测试误差35.68%，也超过了目前最佳实现。

NIN-TABLE2.png

4.4 SVHN

SVHN数据集是谷歌街景门牌号数据集，由630420个32×32的RGB图像组成。在此数据集上得到分类错误率为2.35%。

2212.png

4.5 MNIST

MNIST为手写数字识别经典数据集，包含60000张训练图像和10000张测试图，28×28的单通道图像。此次测试的模型结构和CIFAR-10一样，只是由于MNIST更简单，所以这里没有使用数据扩增。

321123.png

得到分类测试错误率为0.47%，接近当前最好的水平0.45%

4.6 GAP做正则化器

这里主要在数据集CIFAR-10上比较了mlpconv+传统全连接层和mlpconv+ GAP(全局平均池化)两种结构的训练效果，结果表面ｍplconv + GAP效果好于前者。

3333.png

4.7NIN的可视化

image.png

5.总结

针对分类任务，论文提出了一种新的深度网络——网络中的网络(NIN)。这个新结构由mlpconv层和一个GAP全局平均池化层组成，其中ＭＬＰ层由多层感知器组成，并用来卷积输入,而GAP层用于替代常规CNN中的的FC层。
Ｍlpconv层可以更好地对局部特征块建模；而GAP则可以用于防止过拟合，当做正则化器使用。正是由于这样的结构设计，才在CIFAR-10、CIFAR-100和SVHN数据集中取得优异成绩。通过特征图的可视化，我们证明了NIN的最后一个mlpconv层的特征图是类别的置信度图，这让我们看到了通过NIN执行目标检测的可能。
HN

5.代码实现

这里使用tensorflow2.0实现网络结构，而不是完整的训练。
下面我们首先构造NIN中的结构块：mlpconv

import tensorflow as tf


def nin_block(num_channels, kernel_size, strides, padding):
    blk = tf.keras.models.Sequential()
    blk.add(tf.keras.layers.Conv2D(num_channels, kernel_size,
                                   strides=strides, padding=padding, activation='relu')) 
    blk.add(tf.keras.layers.Conv2D(num_channels, kernel_size=1,activation='relu')) 
    blk.add(tf.keras.layers.Conv2D(num_channels, kernel_size=1,activation='relu'))    
    return blk

然后在整个NIN中，依次叠加4个mlpconv块，最后加上全局平均池化层。

net = tf.keras.models.Sequential()
net.add(nin_block(96, kernel_size=11, strides=4, padding='valid'))
net.add(tf.keras.layers.MaxPool2D(pool_size=3, strides=2))
net.add(nin_block(256, kernel_size=5, strides=1, padding='same'))
net.add(tf.keras.layers.MaxPool2D(pool_size=3, strides=2))
net.add(nin_block(384, kernel_size=3, strides=1, padding='same'))
net.add(tf.keras.layers.MaxPool2D(pool_size=3, strides=2))
net.add(tf.keras.layers.Dropout(0.5))
net.add(nin_block(10, kernel_size=3, strides=1, padding='same'))
net.add(tf.keras.layers.GlobalAveragePooling2D())
net.add(tf.keras.layers.Flatten())

构造一个224×224×3的图片来看一下每一层输出的shape

X = tf.random.uniform((1,224,224,3))
for blk in net.layers:
    X = blk(X)
    print(blk.name, 'output shape:\t', X.shape)

输出：

sequential_1 output shape:   (1, 54, 54, 96)
max_pooling2d output shape:  (1, 26, 26, 96)
sequential_2 output shape:   (1, 26, 26, 256)
max_pooling2d_1 output shape:    (1, 12, 12, 256)
sequential_3 output shape:   (1, 12, 12, 384)
max_pooling2d_2 output shape:    (1, 5, 5, 384)
dropout output shape:    (1, 5, 5, 384)
sequential_4 output shape:   (1, 5, 5, 10)
global_average_pooling2d output shape:   (1, 10)
flatten output shape:    (1, 10)

在《动手学深度学习》-tf2.0版一书中，有完整的训练代码。完整训练可参考：网络中的网络（NiN）

6.总结

Network in Network提出了一种全新的模型设计：用微型网络层MLP代替了传统conv层；用GAP全局平均池化代替了传统的FC层实现分类输出。
mlp概述：

1.本身和卷积层兼容，且为深度模型，符合特征重用的思想；其中的全连接层等价于1×1卷积。
2.为局部特征块提取出更抽象的特征，从而在送入下一层之前，增加抽象性，从而提高模型整体的通用性。

GAP概述：

1.没有了全连接层，减少了大量需要学习的参数，也降低了FC层过拟合的发生，起到正则化器的效果。
2.增强了特征映射和类别之间的对应关系，更符合卷积的结构，因此特征图就更容易对应上最后要输出分类的类别置信度；

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 211,743评论 6赞 492
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,296评论 3赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 157,285评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,485评论 1赞 283
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,581评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,821评论 1赞 290
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,960评论 3赞 408
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,719评论 0赞 266
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,186评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,516评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,650评论 1赞 340
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,329评论 4赞 330
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,936评论 3赞 313
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,757评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,991评论 1赞 266
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,370评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,527评论 2赞 349

【论文解读】CNN深度卷积神经网络-Network in Network

前言

【论文解读】CNN深度卷积神经网络-Network in Network

1.简介

1.1 资源下载

2.Abstract

3.网络结构

4.论文解读

3.2 全局平均池化GAP

3.3 NIN结构

4. 实验

4.1概述

4.2 CIFAR-10

4.3 CIFAR-100

4.4 SVHN

4.5 MNIST

4.6 GAP做正则化器

4.7NIN的可视化

5.总结

5.代码实现

6.总结

推荐阅读更多精彩内容