网络模型量化
模型量化
以更少位数的数据类型用于近似表示32位有限范围浮点型数据的过程
模型的输入输出依然是浮点型
达到减少模型尺寸大小、减少模型内存消耗及加快模型推理速度等目标
原理
- 模型量化桥接了定点与浮点,建立了一种有效的数据映射关系,使得以较小的精度损失代价获得了较好的收益
- 由浮点到定点的量化
- 由定点到浮点反量化
优缺点
好处
- 减小模型尺寸,如8位整型量化可减少75%的模型大小
- 减少存储空间,在边缘侧存储空间不足时更具有意义
- 易于在线升级,模型更小意味着更加容易传输
- 减少内存耗用,更小的模型大小意味着不需要更多的内存
- 加快推理速度,访问一次32位浮点型可以访问四次int8整型,整型运算比浮点型运算更快
- 减少设备功耗,内存耗用少了推理速度快了自然减少了设备功耗
- 支持微处理器,有些微处理器属于8位的,低功耗运行浮点运算速度慢,需要进行8bit量化
缺点
- 模型量化增加了操作复杂度,在量化时需要做一些特殊的处理,否则精度损失更严重
- 模型量化会损失一定的精度,虽然在微调后可以减少精度损失,但推理精度确实下降
TF模型的两类量化方式
针对已经训练好的模型进行量化
TensorFlow Lite converter
TensorFlow Lite Optimizing COnverter(toco命令工具)
需要结合业务场景及所拥有的硬件资源选择量化的方式,目的是以最小损失达到最大化模型量化效果
-
训练后量化几种方案
-
混合量化--仅量化权重
- 浮点型的权重量化为int8整型,可将模型大小直接减少75%、提升推理速度最大3倍
- 推理的过程中,需要将int8量化值反量化为浮点型后再进行计算
- 如果某些Ops不支持int8整型量化,那么其保存的权重依然是浮点型的
-
全整型量化--权重和激活值都进行量化
- 试图将权重、激活值及输入值均全部做int8量化,并且将所有模型运算操作置于int8下进行执行,以达到最好的量化效果
- 需要一个具有代表性的小数据集,用于统计激活值和输入值等的浮点型范围,以便进行精准量化
-
半精度float16量化--仅量化权重
- 将权重量化为半精度float16形式,其可以减少一半的模型大小、相比于int8更小的精度损失
- 如果硬件支持float16计算的话那么其效果更佳
- 在CPU运行时,半精度量化也需要像int8量化一样进行反量化到float32在进行计算
- GPU可以支持float16运算
-
TF量化感知训练(Quantization-aware training)
伪量化的过程
-
在可识别的某些操作内嵌入伪量化节点(fake quantization nodes)
用以统计训练时流经该节点数据的最大最小值,便于在使用TOCO转换tflite格式时量化使用并减少精度损失
-
需要对训练和推理过程添加代码
- 第一步,在训练图结构内添加伪量化节点
- 第二步,重写推理图结构并保存为新的模型
- 第三步,转换模型为全量化模型
两种方式的有缺点比较
- 两者均可达到模型量化的作用
- 两者的推理工作原理是一样的
- 两者都可工作在Tensorflow lite推理框架下并进行相应加速
- 训练后量化工作量稍微简单些,而量化感知训练工作量更繁琐一些
- 量化感知训练比训练后量化损失的精度更少,官方推荐使用量化感知训练方式