convolution:
卷积(Conv)算子的计算复杂度通常取决于多个因素,包括输入的维度(input_batch,input_h、input_w、input_channel)、卷积核的大小(kernel_h, kernel_w)、步长(stride_h、stride_w)和填充(padding_h, padding_w)。
conv算子的输出shape 计算方式为: O = (W-K+2P)/S + 1
其中:
O 是输出的大小 W 是输入的大小 K 是卷积核的大小 P 是填充 S 是步长
一般来说,卷积操作总的计算复杂度为:
O(n) = N * M * O * O * K * K * C
其中:
N 是批量大小
M 是输出的通道数
O 是输出的宽/高
K 是卷积核的宽/高
C 是输入的通道数
这个公式假设我们在每个位置都进行了卷积操作,即步长为1。如果步长大于1,那么计算复杂度会相应减少。
复杂度对模型的影响
时间复杂度决定了模型的训练/预测时间。如果复杂度过高,则会导致模型训练和预测耗费大量时间,既无法快速的验证想法和改善模型,也无法做到快速的预测。
空间复杂度决定了模型的参数数量。由于维度诅咒的限制,模型的参数越多,训练模型所需的数据量就越大,而现实生活中的数据集通常不会太大,这会导致模型的训练更容易过拟合。
当我们需要裁剪模型时,由于卷积核的空间尺寸通常已经很小(3x3),而网络的深度又与模型的表征能力紧密相关,不宜过多削减,因此模型裁剪通常最先下手的地方就是通道数。
如果卷积操作中包含了 dilation(扩张),那么计算复杂度的计算方式会有所不同。在这种情况下,卷积核的实际大小会变为 K' = K + (K-1)*(D-1),其中 D 是 dilation 系数。
因此,如果考虑 dilation,那么卷积操作的计算复杂度可以表示为:
O(n) = N * M * O * O * K' * K' * C
其中 K' 是考虑了 dilation 的卷积核大小。其他的参数含义与之前相同。
需要注意的是,虽然 dilation 可以增加卷积核的感受野,但并不会增加卷积操作的计算量,因为 dilation 只是改变了卷积核中非零元素的分布,而非零元素的总数仍然是 K*K。
https://blog.csdn.net/john_bh/article/details/105508642
Depthwise Convolution的计算非常简单,它对输入feature map的每个通道分别使用一个卷积核,然后将所有卷积核的输出再进行拼接得到它的最终输出
因为卷积操作的输出通道数等于卷积核的数量,而Depthwise Convolution中对每个通道只使用一个卷积核
深度可分离卷积,其实只对常规卷积做了一个很小的改动,但是带来的确实参数量的下降,这无疑为网络的轻量化带来了好处。对于来自上一层的多通道特征图,首先将其全部拆分为单个通道的特征图,分别对他们进行单通道卷积,然后重新堆叠到一起。深度可分离卷积主要分为两个过程,分别为逐通道卷积(Depthwise Convolution)和逐点卷积(Pointwise Convolution)。
深度可分离卷积的优点:
1)减少参数。可以看出运用深度可分离卷积比普通卷积减少了所需要的参数。
2)实现了通道和区域的分离。重要的是深度可分离卷积将以往普通卷积操作同时考虑通道和区域改变成,卷积先只考虑区域,然后再考虑通道。
深度可分离卷积的缺点:
DW完全是在二维平面内进行。卷积核的数量与上一层的通道数相同,这种运算对输入层的每个通道独立进行卷积运算,没有有效的利用不同通道在相同空间位置上的feature信息。
深度可分离卷积(Depthwise Convolution)的计算复杂度比标准的卷积要低。这是因为在深度可分离卷积中,每个输入通道都有一个独立的卷积核,而不是所有输入通道共享一个卷积核。
深度可分离卷积的计算复杂度可以用以下公式表示:
O(n) = N * M * O * O * K * K * C
其中:
N 是批量大小
M 是输出的通道数
O 是输出的宽/高
K 是卷积核的宽/高
C 是输入的通道数
这个公式与标准卷积的计算复杂度公式看起来很相似,但是在深度可分离卷积中,M通常等于C,因为每个输入通道都有一个对应的输出通道。
因此,深度可分离卷积的计算复杂度通常比标准卷积的计算复杂度要低,这使得它在资源受限的环境中(如移动设备或嵌入式系统)非常有用。