13、EMA模块
论文《Efficient Multi-Scale Attention Module with Cross-Spatial Learning》
1、作用
论文提出了一种新颖的高效多尺度注意力(EMA)模块,专注于在保留每个通道信息的同时降低计算成本。EMA模块通过将部分通道重塑到批量维度并将通道维度分组为多个子特征,使得空间语义特征在每个特征组内得到良好分布。该模块的设计旨在提高图像分类和对象检测任务中的特征提取能力,通过编码全局信息来重新校准每个并行分支中的通道权重,并通过跨维度交互进一步聚合两个并行分支的输出特征,捕获像素级的成对关系。
2、机制
1、EMA模块:
通过分组结构修改了坐标注意力(CA)的顺序处理方法,提出了一个不进行维度降低的高效多尺度注意力模块。EMA模块通过在不同空间维度上进行特征分组和多尺度结构处理,有效地建立了短程和长程依赖关系,以实现更好的性能。
2、跨空间学习方法:
EMA模块通过跨空间学习方法,将两个并行子网络的输出特征图融合,这种方法使用矩阵点积操作来捕获像素级的成对关系,并突出全局上下文,以丰富特征聚合。
3、独特优势
1、高效的多尺度感知能力:
EMA模块通过结合1x1和3x3卷积核的并行子网络,有效捕获不同尺度的空间信息,同时保留精确的空间结构信息。
2、跨空间特征融合:
通过跨空间学习方法,EMA能够有效整合来自不同空间位置的特征信息,提高了特征表示的丰富性和准确性。
3、参数效率和计算效率:
与现有的注意力机制相比,EMA在提高性能的同时,还实现了更低的参数数量和计算复杂度,特别是在进行图像分类和对象检测任务时。
4、代码
import torch
from torch import nn
# 定义EMA模块
class EMA(nn.Module):
def __init__(self, channels, factor=8):
super(EMA, self).__init__()
# 设置分组数量,用于特征分组
self.groups = factor
# 确保分组后的通道数大于0
assert channels // self.groups > 0
# softmax激活函数,用于归一化
self.softmax = nn.Softmax(-1)
# 全局平均池化,生成通道描述符
self.agp = nn.AdaptiveAvgPool2d((1, 1))
# 水平方向的平均池化,用于编码水平方向的全局信息
self.pool_h = nn.AdaptiveAvgPool2d((None, 1))
# 垂直方向的平均池化,用于编码垂直方向的全局信息
self.pool_w = nn.AdaptiveAvgPool2d((1, None))
# GroupNorm归一化,减少内部协变量偏移
self.gn = nn.GroupNorm(channels // self.groups, channels // self.groups)
# 1x1卷积,用于学习跨通道的特征
self.conv1x1 = nn.Conv2d(channels // self.groups, channels // self.groups, kernel_size=1, stride=1, padding=0)
# 3x3卷积,用于捕捉更丰富的空间信息
self.conv3x3 = nn.Conv2d(channels // self.groups, channels // self.groups, kernel_size=3, stride=1, padding=1)
def forward(self, x):
b, c, h, w = x.size()
# 对输入特征图进行分组处理
group_x = x.reshape(b * self.groups, -1, h, w) # b*g,c//g,h,w
# 应用水平和垂直方向的全局平均池化
x_h = self.pool_h(group_x)
x_w = self.pool_w(group_x).permute(0, 1, 3, 2)
# 通过1x1卷积和sigmoid激活函数,获得注意力权重
hw = self.conv1x1(torch.cat([x_h, x_w], dim=2))
x_h, x_w = torch.split(hw, [h, w], dim=2)
# 应用GroupNorm和注意力权重调整特征图
x1 = self.gn(group_x * x_h.sigmoid() * x_w.permute(0, 1, 3, 2).sigmoid())
x2 = self.conv3x3(group_x)
# 将特征图通过全局平均池化和softmax进行处理,得到权重
x11 = self.softmax(self.agp(x1).reshape(b * self.groups, -1, 1).permute(0, 2, 1))
x12 = x2.reshape(b * self.groups, c // self.groups, -1) # b*g, c//g, hw
x21 = self.softmax(self.agp(x2).reshape(b * self.groups, -1, 1).permute(0, 2, 1))
x22 = x1.reshape(b * self.groups, c // self.groups, -1) # b*g, c//g, hw
# 通过矩阵乘法和sigmoid激活获得最终的注意力权重,调整特征图
weights = (torch.matmul(x11, x12) + torch.matmul(x21, x22)).reshape(b * self.groups, 1, h, w)
# 将调整后的特征图重塑回原始尺寸
return (group_x * weights.sigmoid()).reshape(b, c, h, w)
# 测试EMA模块
if __name__ == '__main__':
block = EMA(64).cuda() # 实例化EMA模块,并移至CUDA设备
input = torch.rand(1, 64, 64, 64).cuda() # 创建随机输入数据
output = block(input) # 前向传播
print(output.shape) # 打印输入和输出的尺寸