前言
本来是打算继续肝CVPR 2021的垂直方向大盘点工作,之前已经推送了Transformer、目标检测、语义分割和OCR的盘点。但这几天看到越来越多的视觉Transformer工作,特别是Transformer在医学图像上的应用。经常看到有人调侃:想发论文吗?那就上Transformer吧...
实际上这波热潮,从年初就开始了,比如非常具有代表性的:TransUNet(但似乎还没被收录)。详见:
CVer计算机视觉:TransUNet:用于医学图像分割的Transformers强大编码器zhuanlan.zhihu.com
但那时很多Transformer+医学图像分割的工作并没有"顶会的加持",Amusi 就没有系统整理分享。当MICCAI 2021放榜后,发现Transformer真就一脚踹进了医学图像。
本文盘点了目前已公开的5篇MICCAI 2021上的Transformer+医学图像分割的工作,尽可能聚集于reviewer认可的工作,看相对好的优质工作,避免大家踩坑。这5篇中有3篇开源,还是很香的\~
一、MedT:用于医学图像分割的Transformer
Medical Transformer: Gated Axial-Attention for Medical Image Segmentation
作者单位:JHU, 新泽西州立大学
代码(已开源):
https://github.com/jeya-maria-jose/Medical-Transformer
论文:https://arxiv.org/abs/2102.10662
表现SOTA!并提出局部-全局训练策略(LoGo),进一步提高性能,优于Res-UNet、U-Net++等网络,代码刚刚开源!
在过去的十年中,深度卷积神经网络已被广泛用于医学图像分割,并显示出足够的性能。但是,由于卷积架构中存在固有的inductive biases,因此他们对图像中的远程依存关系缺乏了解。最近提出的利用自注意力机制的基于Transformer的体系结构对远程依赖项进行编码,并学习高度表达的表示形式。
这促使我们探索基于Transformer的解决方案,并研究将基于Transformer的网络体系结构用于医学图像分割任务的可行性。提出用于视觉应用的大多数现有的基于Transformer的网络体系结构都需要大规模的数据集才能正确地进行训练。但是,与用于视觉应用的数据集相比,对于医学成像而言,数据样本的数量相对较少,从而难以有效地训练用于医学应用的Transformer。
为此,我们提出了Gated Axial-Attention模型,通过在自注意力模块中引入附加的控制机制来扩展现有体系结构。
此外,为了有效地在医学图像上训练模型,我们提出了局部-全局训练策略(LoGo),可以进一步提高性能。
具体来说,我们对整个图像和patch进行操作以分别学习全局和局部特征。在三个不同的医学图像分割数据集上对提出的Medical Transformer(MedT)进行了评估,结果表明,与基于卷积和其他基于transformer的其他架构相比,它具有更好的性能。
二、MCTrans:生物医学图像分割的多复合Transformer
Multi-Compound Transformer for Accurate Biomedical Image Segmentation
作者单位:香港大学, 港中文, 商汤科技
代码:https://github.com/JiYuanFeng/MCTrans
论文:https://arxiv.org/abs/2106.14385
MCTrans 可以很容易地插入到类似 UNet 的网络中,表现SOTA!性能优于CENet、AttentionUNet等网络,代码即将开源!
最近的视觉Transformer(即用于图像分类)学习不同patch tokens的non-local注意力交互。然而,现有技术错过了学习不同像素的跨尺度依赖关系、不同标签的语义对应关系以及特征表示和语义嵌入的一致性,这些对于生物医学分割至关重要。
在本文中,我们通过提出一个统一的Transformer网络来解决上述问题,称为多复合Transformer(MCTrans),它将丰富的特征学习和语义结构挖掘整合到一个统一的框架中。
具体来说,MCTrans 将多尺度卷积特征嵌入为一个标记序列,并执行尺度内和尺度间的自注意力,而不是之前工作中的单尺度注意力。此外,还引入了可学习的代理嵌入,分别通过使用自注意力和交叉注意力来建模语义关系和特征增强。
MCTrans 可以很容易地插入到类似 UNet 的网络中,并且在六个标准基准测试中比最先进的生物医学图像分割方法有了显著的改进。例如,MCTrans 在 Pannuke、CVC-Clinic、CVC-Colon、Etis、Kavirs、ISIC2018 数据集上分别优于 UNet 3.64\%、3.71\%、4.34\%、2.8\%、1.88\%、1.57\%。
三、UTNet:用于医学图像分割的混合Transformer架构
UTNet: A Hybrid Transformer Architecture for Medical Image Segmentation
作者单位:罗格斯大学等
论文:https://arxiv.org/abs/2107.00781
表现SOTA!性能优于ResUNet等网络。
Transformer 架构已经在许多自然语言处理任务中取得成功。然而,它在医学视觉中的应用在很大程度上仍未得到探索。
在这项研究中,我们提出了 UTNet,这是一种简单而强大的混合 Transformer 架构,它将自注意力集成到卷积神经网络中,以增强医学图像分割。
UTNet 在编码器和解码器中应用自注意力模块,以最小的开销捕获不同规模的远程依赖。为此,我们提出了一种有效的自注意力机制以及相对位置编码,将自注意力操作的复杂性从 O(n2) 显著降低到近似 O(n)。还提出了一种新的自注意力解码器,以从编码器中跳过的连接中恢复细粒度的细节。
我们的方法解决了 Transformer 需要大量数据来学习视觉归纳偏差的困境。我们的混合层设计允许在不需要预训练的情况下将 Transformer 初始化为卷积网络。我们已经在多标签、multi-vendor 心脏磁共振成像队列上评估了 UTNet。UTNet 展示了对最先进方法的卓越分割性能和鲁棒性,有望在其他医学图像分割上很好地泛化。
四、PNS-Net:用于视频息肉分割的渐进归一化自注意力网络
Progressively Normalized Self-Attention Network for Video Polyp Segmentation
作者单位:IIAI, 武汉大学, SimulaMet
论文:https://arxiv.org/abs/2105.08468
代码:https://github.com/GewelsJI/PNS\-Net
表现SOTA!性能优于PraNet、ResUNet等网络。
现有的视频息肉分割 (VPS) 模型通常采用卷积神经网络 (CNN) 来提取特征。然而,由于其有限的感受野,CNNs 不能充分利用连续视频帧中的全局时间和空间信息,导致假阳性分割结果。
在本文中,我们提出了新颖的PNS-Net(渐进归一化自注意力网络),它可以在单个 RTX 2080 GPU 上以实时速度(\~140fps)有效地从息肉视频中学习表示,无需后处理。
我们的 PNS-Net 完全基于基本的归一化自注意力块,完全配备了递归和 CNN。在具有挑战性的 VPS 数据集上进行的实验表明,所提出的 PNS-Net 实现了最先进的性能。我们还进行了大量实验来研究通道拆分、软注意力和渐进式学习策略的有效性。我们发现我们的 PNS-Net 在不同的设置下运行良好,使其成为 VPS 任务的一个有前途的解决方案。
五、MBT-Net:角膜内皮细胞分割的多分支混合Transformer网络
A Multi-Branch Hybrid Transformer Network for Corneal Endothelial Cell Segmentation
作者单位:南方科技大学, 中科院, 悉尼科技大学, IIAI等
论文:https://arxiv.org/abs/2106.07557
表现SOTA!性能优于TransUNet、UNet++等网络,已收录于MICCAI 2021!
角膜内皮细胞(Corneal endothelial cell )分割在量化细胞密度、变异系数和六边形等临床指标方面起着至关重要的作用。然而,角膜内皮的不均匀反射和被摄体的震颤和运动导致图像中的细胞边缘模糊,难以分割,需要更多的细节和上下文信息来解决这个问题。由于局部卷积和连续下采样的感受野有限,现有的深度学习分割方法不能充分利用全局上下文,遗漏了很多细节。
本文提出了一种基于Transformer和body-edgebranch的Multi-Branch混合Transformer网络(MBT-Net)。
首先,我们使用卷积块专注于局部纹理特征提取,并通过Transformer和残差连接建立对空间、通道和层的远程依赖关系。此外,我们使用 body-edge 分支来促进局部一致性并提供边缘位置信息。
在自收集数据集 TM-EM3000 和公共 Alisarine 数据集上,与其他 State-Of-The-Art (SOTA) 方法相比,所提出的方法实现了改进。