姓名:闫伟 学号:15020150038
转载自:https://zhuanlan.zhihu.com/p/45072374
【嵌牛导读】:深度学习这种技术可谓是多才多艺、强大无比,但运行神经网络又对计算力、能耗和磁盘空间要求很高。这对于运行在有大型硬盘和多个 GPU 的云应用来说,通常这不是个问题。
【嵌牛鼻子】:深度学习 GPU 云应用
【嵌牛提问】:如何使神经网络在手机上更加方便的运行?
【嵌牛正文】:
让神经网络更小更快的方法
基本上,我们对三个指标很感兴趣:模型的准确率,运行速度和在手机中所占空间大小。
因为天下没有免费的午餐,所以我们必须要做出一些取舍。
对于大部分方法,我们会着眼于这三个指标,寻找满足我们需求的“饱和点”(saturation point)。所谓“饱和点”就是一个指标中的收益无法再通过其它指标中的损失来实现。在达到“饱和点”之前保持优化值,我们就可以在这两类指标上取得最佳结果。
图:在这个例子中,我们可以在不增加误差的情况下大幅缩减代价高昂的运算。然而,围绕“饱和点”,误差就会很高,这是不可接受的。
记住这个方法,我们开始吧!
避免全连接层
全连接层时神经网络中最常见的组成部分之一,它们的效果也确实很好。然而,由于全连接层中的每个神经元都和之前层的所有神经元相连,因而需要存储和更新大量的参数。这对运行速度和磁盘空间非常不利。
卷积层是充分利用输入(通常是图像)中局部连贯性的层。在卷积层中,每个神经元不再和之前层的所有神经元相连,使用它能够在维持高准确度的同时,减少连接/权重的数量。
图:和卷积层相比,全连接层有更多的连接和权重
使用很少或不使用全连接层,可缩减模型的大小,也能保持很高的准确度。这样既能提高速度,也能减少磁盘空间使用。
在上面的配置中,一个有着1024个输入和512个输出的全连接层会有大概50万个参数。而一个有着同样特征和32个特征图谱的卷积层,则只有5万个参数,足足优化了10倍!
缩减通道数量和内核大小
这一步的操作非常直截了当,就是在模型复杂度和运行速度之间做一个权衡。卷积层中有很多通道能让神经网络提取很多的相关信息,但是代价很高。去掉一些特征图谱,能很容易地节省空间,让模型运行更快。
我们可以用卷积操作中的感受域(receptive field)来做同样的事情。缩减内核大小后,虽然卷积对局部特征的感受度下降,但涉及的参数数量也会减少。
图:更小的感受域/内核尺寸耗费更少的计算力,但传递的信息也更少
这两种情况下,我们通过寻找“饱和点”来选择特征图谱数量/内核大小,这样以来模型的准确度也不会大幅下降。
优化降采样
对于固定数量的层,和固定数量的池化操作,神经网络的表现会大不相同。这是因为数据的表示以及计算负荷取决于池化操作所处的时间点:
如果很早执行池化操作,数据的维度就会降低。更少的维度意味着神经网络的处理速度更快,但也意味着更少的信息和更低的准确度。
如果很晚才执行池化操作,就会保存大部分信息,模型就有很高的准确度。然而,这也意味着计算对象有很多维度,需要耗费大量计算力。
在神经网络中均匀进行降采样是一种非常高效的结构,而且能在模型准确度和运算速度之间取得良好的平衡。也就是我们所说的“饱和点”。
图:早期池化模型会很快。晚期池化模型会更准,均匀池化则兼得两者优点
剪切权重
在训练后的神经网络中,有些权重对神经元的激活影响很大,而其余权重则和很少影响结果。不过,我们仍然会计算这些较弱的权重。
剪切权重就是我们将那些影响量级最小的连接完全移除的过程,这样我们就可以略过关于它们的计算。这样做虽然会降低模型的准确度,但是能让模型更轻便、运行更快。我们需要找到一个“饱和点”,移除尽可能多的连接,但又不会导致准确度大幅下降。
图:移除最弱的连接来节省计算时间和空间
将权重量化
为了能将神经网络保存在磁盘,我们需要记录神经网络中每个权重的值。这意味着要保存每个参数的浮点值,这会大量占用磁盘空间。举个例子,在C语言中,一个浮点数占用4字节,即32-bit。一个有着数亿参数的网络(比如Google-Net或VGG-16)轻松就能占据上百兆字节的空间,而这在移动设备上是不可接受的。
如果想让神经网络的内存占用量尽可能的小,一个方法就是通过量化权重来降低它们的精度。在这个过程中,我们会修改数字的表示使其不再取用任意值,而是一些值的子集。这能让我们只需存储一次经过量化处理的值,然后将它们参考为神经网络的权重。
图:量化权重,存储索引而非浮点值
我们通过再次寻找“饱和点”来确定使用多少值。值越多,准确度就越高,但也意味着更大的数字表示。例如,使用256个量化后的值,每个权重仅用1个字节即8-bit就能表示。和之前相比(32-bit),我们将大小缩小了4倍!
编码模型的表示
我们已经对权重做了很多处理,但是尚未优化神经网络!第6种方法是应对权重分布不均的问题。模型的权重量化以后,我们并没有相同数量的权重来支撑每个量化后的值。这意味着在模型的表示中,某些索引的出现频率相对更高,我们可以充分利用这一点!
霍夫曼编码时解决这个问题的绝佳方案。它会给最常用的值分配最小索引、给最不常用值分配最大索引,这样就能缩小设备上的模型大小,最妙的是不会造成准确度下降。
图:频率最高的符号只占用1-bit的空间,而频率最低的占用了3-bit空间。这是因为后者在数据表示中出现的次数很少,从而达到一种空间上的平衡。
这种简单技巧能让我们进一步缩小神经网络占用的内存空间,通常能缩小30%。
注意:神经网络中每一层的量化和编码操作可以是不同的,从而提供更多的灵活性。
修正准确度损失
使用我们上面列举的方法后,我们几乎“大修”了手头的神经网络:移除了弱连接(剪切权重),甚至修改了权重(量化操作)。这样能让神经网络超级轻便,运行飞快,但准确度也会发生变化。
为了修正这个问题,我们需要在每一步迭代地重新训练神经网络,意思就是在剪切或量化权重后,我们再次训练神经网络,这样它就能适应变化,不断重复这个过程直到权重不再大幅变化为止。
结语
虽然智能手机并没有电脑那样的磁盘空间、计算力或续航能力,但仍然是深度学习应用的极佳运行平台。借助一些技巧,再牺牲一点准确度,我们就能在移动设备上运行强大的神经网络。这将为数以千计的激动人心的 App 敞开大门。
参考资料:
https://heartbeat.fritz.ai/how-smartphones-manage-to-handle-huge-neural-networks-269debcb243d