MobileNetV1/V2/V3简述 | 轻量级网络

MobileNet系列很重要的轻量级网络家族,出自谷歌,MobileNetV1使用深度可分离卷积来构建轻量级网络,MobileNetV2提出创新的inverted residual with linear bottleneck单元,虽然层数变多了,但是整体网络准确率和速度都有提升,MobileNetV3则结合AutoML技术以及人工微调进行更轻量级的网络构建

来源:晓飞的算法工程笔记 公众号

MobileNetV1


论文: MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

Introduction

  MobileNet基于深度可分离卷积构建了非常轻量且延迟小的模型,并且可以通过两个超参数来进一步控制模型的大小,该模型能够应用到终端设备中,具有很重要的实践意义。

Depthwise Separable Convolution

  假设标准卷积的输入和输出分别为D_F\times D_F \times M的特征图\mathbb{F}D_F \times D_F\times N的特征图\mathbb{G}(假设特征图大小不变),卷积核大小为D_K\times D_K\times M\times N,则输出特征图的计算为:

  计算量为:

  计算量与输入维度M、输出维度N、卷积核大小D_K以及特征图大小D_F相关。

  MobileNet通过深度可分离卷积优进行计算量优化,将标准卷积转化为深度卷积和1\times 1pointwise卷积,每层后面都会接BN和ReLU。 深度卷积的每个输入维度对应一个卷积核,对于相同的输入,深度卷积的输出特征图计算为:

\hat{\mathbb{K}}是大小为D_K\times D_K\times M的深度卷积核,\hat{\mathbb{K}}m_{th}卷积核对应输入\mathbb{F}m_{th}特征图和输出\hat{\mathbb{G}}m_{th}特征图,深度卷积的计算量为:

  尽管深度卷积更高效,但没有很好地融合多个输入维度,所以需要额外层来对其输出进行线性组合,这里使用1\times 1pointwise卷积来生成新特征图,即深度可分离卷积,计算量为:

  深度可分离卷积和标准卷积的计算量缩放比为:

  MobileNet使用3\times 3的深度可分离卷积,所以大概会有8-9倍的计算量减少,准确率仅会有些许降低。

Network Structure and Training

  MobileNet的结构如表1所示,除第一层外其它均是深度可分离卷积,除了最后一层全连接层外每层都接BN和ReLU,总共28层。

  论文提到不能直接通过计算量来代表网络的高效性,还需要看操作的具体实现方法。如表2所示,MobileNet的大部分计算量和参数都在pointwise卷积上,不管在CPU设备还是GPU设备,都已经有很高效的实现方法。至于训练的设置,论文也有较详细的提及,有兴趣的可以去看看原文。

Width Multiplier: Thinner Models

  尽管MobileNet已经很轻量了,但还可以使用宽度缩放因子\alpha来进一步轻量化,将每层的输入输出维度变为\alpha M\alpha N,缩放后的计算量变为:

\alpha \in (0,1],宽度缩放因子的计算量缩放比大约为\alpha^2,能够让用户根据任务对准确率和速度进行trade off。

Resolution Multiplier: Reduced Representation

  MobileNet还可以通过分辨率缩放因子\rho来缩放模型的大小,结合宽度缩放因子\alpha,缩放后的计算量为:

\rho \in (0, 1],分辨率缩放因子的计算量缩放比大约为\rho^2

  论文也对深度可分离卷积、宽度缩放因子以及深度缩放因子的效果进行了对比。

Experiments

  MobileNet的实验做得挺详细的,在多种任务上进行性能对比,这里只列举了部分结果,具体的可以看原文,但比较遗憾的是没有贴推理耗时的对比结果。

  对比MobileNet的全卷积版本和深度可分离卷积版本。

  对比宽度缩放和直接去除最后5层14\times 14\times 512深度分离卷积的效果。

  对比不同宽度缩放因子的效果。

  对比不同分辨率缩放的效果。

CONCLUSION

  MobileNet运用深度可分离卷积进行轻量级网络的构建,在准确率没有大幅下降的情况下,能把参数量和计算量降低大约8倍,具有很重要的实践意义。

MobileNetV2


论文: MobileNetV2: Inverted Residuals and Linear Bottlenecks

Introduction

  MobileNetV2提出新的层单元inverted residual with linear bottleneck,该结构类似与残差网络单元,都包含shorcut,区别在于该结构是输入输出维度少,中间通过线性卷积先扩展升维,然后通过深度卷积进行特征提取,最后再映射降维,可以很好地保持网络性能且网络更加轻量。

Linear Bottlenecks

  神经网络的高维特征中的关键信息(manifold of interest)是分散分布的,实际可以用紧凑的低维特征进行表示,因此理论上可以通过降低层输出的维度来降低操作空间的维度。而论文认为,当层中存在非线性激活时,则可能会打破上面的理论,于是去除了低维特征的非线性操作,基于下面两点发现:

  • 根据ReLU的属性,若输出为非零,则相当于对该输入进行了线性变化,可认为部分输入空间进行了线性变化,而网络仅对这些非零输出进行后续处理。由于特征的关键信息一般经过ReLU后输出全是非0,因此可以认为ReLU对关键信息(低维特征)都进行了线性操作。
  • 论文将2维输入通过矩阵T线性升维至d,再通过ReLU进行非线性激活,最后使用矩阵T^{-1}恢复至2维。从可视化结果来看,维度越低,ReLU对输入的信息丢失越多。这表明,假设非线性操作的输入特征能够压缩成较低维特征时,需要输入特征有足够大的复杂度,非线性操作才能保留较完整的信息。

  假设层输出的关键信息可以通过低维特征进行表示,则可以使用线性bootleneck进行提取,结构如图2c所示,在深度卷积后接pointwise卷积进行降维,但在降维后不再使用非线性激活,仅对高维特征进行非线性激活。而图2d是结构c的前一部分,两者合起来构成一个完整的MobileNetV2 bottleneck,先通过pointwise卷积升维,然后深度卷积提取特征,最后再使用pointwise卷积进行降维,其中升维的比例称为expansion ratio。

Inverted residuals

  MobileNetV2的residual block与Resnet的residual block类似,重点是为了更好地回传梯度以及特征重用,区别在于MobileNetV2连接的是bottleneck特征,即维度较小的特征。如前面描述的,论文认为较低维的特征包含了所有的必须信息,而expansion layer仅是为了实现非线性变化的一个手段。

  residual block的操作以及输入输出如表1所示,尽管相对于MobileNetV1多了一个pointwise卷积,但这样的结构允许更少的输入输出维度。从表3的对比可以看出,MobileNetV2的内存使用更少。而expansion ratio的设置可以允许结构有很多种变化,设为0时就是identity mapping,设为大于1则是Resnet的residual block。

Model Architecture

  MobileNetV2 unit包含stride=1和stride=2两种。

  MobileNetV2的整体结构如表2所示,通过堆叠图4d的结构进行构建,首层使用普通的卷积层,另外也可以通过宽度缩放因子和分辨率缩放因子来进行准确率和时延之间的trade off。

Experiments

  论文对比MobileNetV2与其它网络在图像分类上的性能。

  论文对比MobileNetV2与其它网络在目标检测上的性能。

  论文对比MobileNetV2与其它网络在语义分割上的性能。

  另外论文对inverted residual with linear bottleneck的改进进行验证。

Conclusions

  MobileNetV2基于inverted residual with linear bottleneck进行轻量级网络构建,整体的结构都挺创新的,包括Inverted residuals以及expansion layer,linear Bottlenecks的分析也很有启发意义,到现在很多终端算法仍是以MobileNetV2作为主干网络。

MobileNetV3


论文: Searching for MobileNetV3

Introduction

  MobileNetV3基于AutoML构建,再人工微调对搜索结果进行优化,搜索方法使用了platform-aware NAS以及NetAdapt,分别用于全局搜索以及局部搜索,而人工微调则调整了网络前后几层的结构、bottleneck加入SE模块以及提出计算高效的h-swish非线性激活。

Network Search

  MobileNetV3首先使用MnasNet的platform-aware NAS进行每个block的层结构搜索,再将搜索结果按照预设的网络结构搭建起来,有兴趣的可以去看看公众号的讲解。platform-aware NAS主要是以准确率和实际时延的加权ACC(m)\times [LAT(m)/TAR]^w作为优化指标,逼近帕累托最优(准确率和时延分别不能再同时增加)。论文在实践时发现,对于小模型而言,时延的增加会导致精度急剧增大,因此需要增大w=-0.07w=-0.15,加大对时延增加的惩罚。
  在完成初步的网络搜索后,论文使用NetAdapt进行逐层地调整 ,作为对MnasNet的搜索方法的补充,NetAdapt的具体步骤如下:

  1. 基于MnasNet搜房方法得到的种子网络作为开始。
  2. 生成新proposal集,每个proposal代表对种子网络的一种修改,必须能带来\delta=0.01倍的时延下降。
  3. 对于每个proposal,使用上一step的训练模型进行参数初始化,缺失的参数随机初始化,然后finetune T=10000轮得到大致的准确率。
  4. 根据指标选择最好的proposal。
  5. 迭代步骤234直到满足目标时延。

  原始的NetAdapt使用时延作为步骤4的指标,论文修改为准确率和时延的比值\frac{\Delta Acc}{\mid \Delta latency \mid},这样能够达到很好的trade-off,\Delta latency依然需要满足步骤2,步骤2的proposal除了原来NetAdapt的修改卷积核操作外,还包含以下两种:

  • 减小任意expansion layer的大小
  • 减小所有相同大小的bottleneck的大小

Redesigning Expensive Layers

  在得到搜索结果后,论文发现通常网络的前后几层开销都相对较多,因此针对这几层进行了特定的修改。

  对最后几层的改造如图5,前置了avg pool,使得后续升至高维的操作能在1\times 1特征图上进行,而不是在7\times 7特征图上进行,节省了大量的时间。而由于avg pool前置这个操作已经节省了大量的计算量,也就不需要前一个bottleneck的DConv+pointwise conv操作(该操作为了从160维生成320维特征,避免直接从160维到1280维)来减轻计算量了,直接去除,进一步节省计算量,这样的改进大概能带来7毫秒(11%)的速度提升。
  对于前几层,一般的网络都使用32维3\times 3的卷积,论文认为这些卷积里面存在冗余,通过实验,将维度降维16维不影响准确率,带来2毫秒的速度提升,非线性激活使用了论文提出的hwish非线性激活,效果与其它函数差别不大。

Nonlinearities

  swish作为ReLU的替代品,能带来显著的准确率提升,swish的定义如下:

  由于swish包含了sigmoid函数,在移动设备上计算没有很好地优化。因此,论文将sigmoid替换成分段线性模拟\frac{ReLU6(x+3)}{6},提出了改进版hwish:

  从图6的可视化结果来看,swish和h-swish的曲线十分接近。非线性操作在网络越深处的耗时会低(特征图大小减小一半),因此,仅在网络的后半段使用h-swish。

Large squeeze-and-excite

  MobileNetV3的bottleneck在V2的基础上加了SE模块,其中SE ratio固定为0.25。论文提到这里的实现与MansNet不太一样,固定为expansion layer的1/4,但我看来好像没什么区别,知道的朋友麻烦告知一下。

MobileNetV3 Definitions

  MobileNetV3分为MobileNetV3-Large和MobileNetV3-Small两个版本。

Experiments

  论文的实验很充分,这里只贴了部分任务的主要实验结果,其它可以查看原文。

  论文对比MobileNetV3与其它网络在图像分类上的性能。

  论文对比MobileNetV3与其它网络在目标检测上的性能。

Conclusion

  MobileNetV3首先使用AutoML方法获取到最优的网络结构,再通过人工的部分修改来达到最终的精度,虽然网络不是直接通过搜索得来的,但是实验的效果还是有的,里面的improvement也值得参考和借鉴。

Conclusion


  MobileNet系列是很重要的轻量级网络家族,MobileNetV1使用深度可分离卷积来构建轻量级网络,MobileNetV2提出创新的inverted residual with linear bottleneck单元,虽然层数变多了,但是整体网络准确率和速度都有提升,MobileNetV3则结合AutoML技术以及人工微调进行更轻量级的网络构建



如果本文对你有帮助,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】

work-life balance.
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,290评论 6 491
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,107评论 2 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,872评论 0 347
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,415评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,453评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,784评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,927评论 3 406
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,691评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,137评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,472评论 2 326
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,622评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,289评论 4 329
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,887评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,741评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,977评论 1 265
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,316评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,490评论 2 348