【论文阅读】(2024) ParaTransCNN:用于医学图像分割的并行化TransCNN编码器

一、论文阅读

Title: ParaTransCNN: Parallelized TransCNN Encoder for Medical Image Segmentation

题目:ParaTransCNN:用于医学图像分割的并行化TransCNN编码器


摘要:基于卷积神经网络的方法在医学图像分割中越来越受欢迎,因为其出色的性能。然而,它们在捕捉长程依赖性(long-range dependencies)方面存在困难,而这对于准确建模全局上下文相关性至关重要。由于可以通过扩展感受野来建模长程依赖性的能力,基于Transformer的方法已经备受关注。受此启发,我们提出了一种先进的2D特征提取方法,通过将卷积神经网络和Transformer架构结合在一起。具体来说,我们引入了一个并行化的编码器结构,其中一个分支使用ResNet从图像中提取局部信息,而另一个分支使用Transformer提取全局信息。此外,我们将金字塔结构集成到Transformer中,以在不同分辨率下提取全局信息,特别适用于密集预测任务。为了在解码器阶段高效利用并行化编码器中的不同信息,我们使用通道注意模块来合并编码器的特征,并通过跳跃连接和瓶颈传播它们。我们在主动脉血管树、心脏和多器官数据集上进行了大量的数值实验。通过与最先进的医学图像分割方法进行比较,我们的方法在分割精度方面表现更好,尤其是在小器官上。该代码可在github上公开获取。

1 引言


(a)基于CNN的方法,如Att U-Net、FCRB U-Net、V-Net、HADCNet和DeepLab,只能模拟图像中的局部信息,缺乏对序列之间长距离依赖关系的建模能力。

(b)ViT(Vision Transformer)通过其自注意力机制有效地对图像内序列和序列之间的关系进行建模,实现了全局信息的提取,如Swin U-Net、TransDeepLab、MISSFormer和DAE-Former等,但忽视了CNN在学习局部特征方面的优势,导致对医学图像中的详细信息提取不足。

(c)融合的CNN和Transformer,如TransUNet、HiFormer、TransCeption和MSRAformer等仍未充分利用Transformer在不同分辨率下的特征提取能力。

    单一编码器限制了CNN和Transformer在复杂图像处理任务中的潜力,考虑到卷积神经网络CNN和Transformer具有独特的优势,作者提出了一种新颖的并行化编码器架构,称为ParaTransCNN,用于医学图像分割。编码器包括两个分支:一个利用引入了金字塔结构的Transformer捕获全局特征,另一个利用CNN提取局部特征。通过使用通道注意和跳跃连接,不同尺度的特征被有效地融合并传递到解码器。

2 方法

如图2所示,TaraTransCNN的整体架构遵循类似U-Net的编码器-解码器范式,包括编码器、通道注意模块、跳跃连接和解码器。值得注意的是,并行化编码器结合了ResNet和Transformer的优势。在Transformer组件内部,引入金字塔结构以在多个分辨率下捕获全局特征。此外,使用通道注意模块增强了并行化编码器的表达能力,丰富了提取的特征并为后续解码过程提供全面的引导。并且还利用跳跃连接和解码器模块来估计最终的分割掩模。

(1)输入数据:尺寸为𝐻 × 𝑊 × 3的二维图像。

(2)Transformer编码器分支用来捕获全局特征。按照4、8 和 16 的因子顺序降采样特征图。这种降采样过程对于生成不同尺度的特征图至关重要,允许更广泛的感受野,并捕获输入图像的分层表示。分支编码器可以描述如下:

    ①大小为4的patch embedding层,得到尺寸为𝐻/4 × 𝑊/4 × 𝐶的特征图,送入Transformer层进行处理,捕获全局信息。


    ②进入大小为2的patch embedding,得到尺寸为𝐻/8 × 𝑊/8 × 2𝐶的特征图,然后送入Transformer层。


    ③继续使用大小为2的patch embedding,得到尺寸为𝐻/16 × 𝑊/16 × 4𝐶的特征图,但是这一阶段的是金字塔结构的transformer编码器。


(3)ResNet编码器分支用来捕获图像的局部细节。为了保证ResNet提取的局部信息与Transformer分支获得的特征图对齐,同样使用4、8 和 16 的因子进行降采样。ResNet分支描述如下:

(4)通道注意力机制


如图3所示,通道注意力机制用来结合从CNN和Transformer分支获得的局部和全局信息。具体来说就是姜来自CNN分支(ResNet分支)的特征和来自Transformer分支的特征进行拼接,获得通道信息的表示,如下:


然后对其进行平均池化、MLP和sigmoid,这样就获得了得到通道注意力图,然后再将通道注意力图和通道信息表示逐元素相乘,赋予不同通道不同权重,在并行编码器中激活有用信息,抑制无关信息。


(5)解码器:根据编码器获得的多尺度特征表示,使用3×3卷积、Batch Normalization和ReLU进行2倍、2倍和4倍的上采样。

(6)损失函数:使用了Dice和交叉熵作为损失函数。如下图所示,经过作者的实验,将两个损失函数的系数均设置为0.5。


3 实验与结果

(1)实验设备:NVIDIA RTX 3090 GPU。

        优化器:SDG。

        batch_size: 4。

        epoch: 150。

        初始学习率:0.01。

        数据输入尺寸:224×224

        数据增强:随机旋转和翻转

        评价指标:Dice和HD

(2)参数和架构探索。


Transformer架构中的token维度和层数对捕捉全局信息至关重要。表1表明,token维度为320时模型性能最优。表2表明,每个Transformer使用三层可以实现最佳的分割性能。表3表明,Patch重叠对ParaTransCNN并没有带来显著的好处,在第四阶段使用下采样率32来增加并行编码器的深度会降低模型性能,相反把将金字塔结构整合到Transformer分支中可以提高模型性能。

(2)数据集1:Segmentation Of The Aorta2023 (SEG.A. challenge 2023)。训练集38个病例(15044张切片),测试集18个病例,将所有切片重新采样为1mm×1mm,HU值在[0,1]。



(3)数据集2:Automated Cardiac Diagnosis Challenge (ACDC)。训练集100例,测试集50例。


(4)数据集3:Multi-organ Synapse dataset。训练集18例,测试集12例。每例由85∼198张相同尺寸为512×512的切片组成。将所有切片重新采样为1mm×1mm,HU值在[0,1]。



©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容