欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 健康 > 美食 > Few-shot medical image segmentation with high-fidelity prototypes 论文总结

Few-shot medical image segmentation with high-fidelity prototypes 论文总结

2025/4/21 10:26:11 来源:https://blog.csdn.net/qq_45981086/article/details/147254799  浏览:    关键词:Few-shot medical image segmentation with high-fidelity prototypes 论文总结

题目:Few-shot medical image segmentation with high-fidelity prototypes(高精确原型)

论文:Few-shot medical image segmentation with high-fidelity prototypes - ScienceDirect

源码:https://github.com/tntek/DSPNet

0  预备知识

一、摘要

研究背景少样本语义分割(FSS)旨在使 预训练模型适应新类别每个类别只需一个带有标签的训练样本

研究问题:尽管基于原型的方法已取得显著成功,但现有模型 仅适用于 物体明显不同且背景不复杂 的成像场景 ,例如自然图像。这使得此类模型在 不符合这两种条件的医学成像中表现不佳

主要工作:为解决这一问题,我们提出了一种新颖的细节自优化原型网络(DSPNet),以构建更全面地代表前景和背景的高精确原型。具体而言,为了在保持捕获的细节语义的同时构建全局语义,我们通过 聚类建模多模态结构 来学习前景原型,然后以 通道方式融合 每个原型。考虑到背景在 空间维度上通常没有明显的语义关系,我们在 稀疏通道感知 调节下整合通道特定的结构信息。

实验效果:在 三个 具有挑战性的医学图像基准数据集上进行的大量实验表明,DSPNet 相较于先前最先进的方法具有优越性。

二、引言

研究背景:在医学领域,由于隐私保护和临床专业知识的要求,注释良好的样本是有限的(数据短缺)。在这种情况下,少样本语义分割(FSS)方法(2022)在这一领域展示了其优势,涉及提取一个或几个支持数据来预测查询数据中的相同类型

主要问题:从支持图像中挖掘原型,以建立与查询图像的相似性。这种方法 利用具有代表性的样本来理解和应用概念知识到新的情况。然而,由于原型提取使用 池化操作,例如掩码平均池化或平均池化,该方案存在固有的局限性:由于池化容易丢失局部细节,传统的原型导致低区别的特征图,混淆前景和背景

相关工作:现有的方法通过逐步挖掘新的原型来解决上述限制,以实现多样化的细节表示。例如,前景的单类原型通过几个局部感知原型(Liu 等人,2020 年)或补偿原型(Zhang 等人,2021 年)得到了丰富。对于背景,采用平均池化在规则网格上生成多样化的局部原型 (Ouyang 等人,2020 年)。这种策略在具有(i)明显不同对象和(ii)背景不十分复杂的成像场景中效果良好。然而,不太适用于具有高度复杂背景的医学图像

主要工作:为解决上述问题,在本文中,我们提出了一种新的细节自优化原型网络(DSPNet)。如图 1 所示(见绿色区域),与构建新的原型不同,我们的方案着重 通过细节自优化来增强现成原型的细节表示,从而生成高精确原型。

在所提出的网络中,我们的细节自优化涉及两个新颖的类似注意力机制的模块,分别称为 前景语义原型注意力(FSPA背景通道结构多头注意力(BCMA)

  • FSPA 中,为了考虑前景清晰的语义,本文利用 超像素聚类  类别级别挖掘语义原型作为细节原型然后 以通道维度的一维卷积方式 将它们融合为单个类别原型,从而整合全局语义同时保留局部语义
  • BCMA 中,由于医学图像中 复杂的背景通常缺乏语义,我们 采用在规则网格上由平均池化生成的背景细节原型,而不是从空间维度挖掘细节信息。然后,通过结合可学习的全局信息和突出稀疏相关通道的调整来探索通道特定的结构信息。最后,每个细节原型的元素都由相应的通道特定结构信息独立地进行通道维度的刷新

贡献

1、一种新颖的原型 FSS 方法 DSPNet增强了原型对复杂细节的自我表示,与以往构建新细节原型的增量范式完全不同。

2、一种类原型的自精化方法 FSPA,集成了 聚类原型将挖掘出的语义细节,以一种类似注意力的方式转化为增强的语义细节,融合基于聚类的局部细节以实现完整前景表示的潜力

3、一种用于背景原型自精炼方法 BCMA,其通过具有 稀疏通道感知正则化的多头通道注意 来 合并通道特定的结构信息,并为背景细节建模提供概念上不同的视图。

三、方法

3.1 框架概述

DSPNet 的分割流程依次遵循三个步骤:

        1、特征提取器 𝑓(⋅) 将支持图像 I^s 和查询图像 I^q 分别嵌入深度特征 F_s 和 F_q

        2、然后通过细节自细化模块(DSR) P_k= DSR(F_s, F_q, M_s) 生成(高精确)原型

        3、最后,通过度量每个像素中每个原型与查询特征之间的余弦相似度来分割查询图像

        在DSR(⋅,⋅,⋅) 模块中,RAN 校准 F_s、F_q 以过滤无关对象和噪声,然后分别通过 FSPABCMA 生成高精确的类别(前景)原型和背景原型

模型在 得到Cosine simiarity 分数 之后,直接使用了双线性插值还原回 “原大小”

3.2 Resemblance Attention Network (相似注意力网络)

作用:在 DSPNet 中,RAN参与 过滤 F_s 和 F_q 之间不相关的纹理和对象

过程:当输入支持和查询特征图 F_s、F_q 时,首先分别将它们重塑为特征向量 A_s 和 A_q。然后,以查询-键-值注意力方式并结合残差连接,A_s、A_q 融合为 F_s,其中 Q = V = A_s,K = A_q。过程可由式 (1) 表示。(实际上就是一个 cross attention)

其中 𝜙(⋅)表示softmax操作,×表示矩阵乘法,𝜙(A^T_s×A_q)表示基于相似度的概率矩阵加权A_s。

3.3 Foreground Semantic Prototype Attention (前景语义原型注意力)

作用:为了获得语义前景的高精确类别原型,FSPA 用于探索前景中的局部语义,并将它们融合以形成全局语义,同时避免局部语义的损失

做法:FSPA 通过基于聚类的细节原型和具有局部语义引导的通道注意力机制来实现这一想法。 

过程

1)细节原型挖掘:为了获取前景更多的局部语义信息,首先在前景上采用 超像素引导的聚类方法,来挖掘 聚类原型

超像素引导的聚类方法(K-means聚类)过程:

具体来说,我们首先通过掩码 M_s 从 F_s 中 "裁剪" (掩码操作) 前景特征(超像素)。之后,通过 像素-超像素关联 和 超像素质心更新交替 进行原型聚类(K-means聚类)。(这里的掩码通过一个双线性的下采调整为提取特征大小一致)

  • 超像素(Superpixel):由多个相邻像素组成的更大单元,这些像素在颜色、亮度和空间上相似。超像素可以看作是像素的集合,它们在视觉上更加连贯。

出自这篇论文:Adaptive Prototype Learning and Allocation for Few-Shot Segmentation

2)细节自优化 和 前景裁剪随后,提出一种类似注意力的 聚类原型融合方法 获得全局语义的同时保留细节语义。聚类原型融合方法由 余弦相似性度量计算基于通道的原型融合计算 构成,公式如下:

其中 𝜙(⋅)是softmax计算;算子 C 和算子 D 分别表示 余弦相似性度量计算基于通道的原型融合计算

余弦相似性度量计算:由于 \hat{F}_s 和 P_c 的大小不同,C 的计算不直接遵循余弦相似度的定义,而是在原型方面进行操作。具体地,使用 P_c 中的每个原型(P^i_c)以一维卷积的方式与支持图像特征 \hat{F}_s 计算相似度,其中卷积计算被余弦相似度计算取代。因此,N_s 个原型会生成 N_s 个相似性矩阵。对于 S_s 中的任意一个矩阵,记作 S_s^i,其计算过程可以表示为:

其中,函数sim1D(n,n) 代表以一维卷积方式工作的相似性计算。
 

基于通道的原型融合计算: 为了将由相似性映射 𝑆_𝑠 表示的知识纳入集群原型𝑃_𝑐,还采用一维卷积来实现 D 的计算。具体来说,计算从卷积滤波器的通道化生成开始。沿着通道维度对𝑃𝑐进行切片,并获得𝐷卷积向量{𝐾_𝑖}^𝐷_{𝑖=1},其中𝐾_𝑖∈R^{1×𝑁_𝑠}包含第i个通道上的聚类原型的语义成分。之后,进行一维卷积以获得融合特征图\bar{𝐹}_𝑠∈R^{𝐷×𝐻×𝑊}。对于第i层的融合特征图,其计算公式可以表示为:

其中𝜙(⋅)是softmax操作,𝜙(𝑆𝑠)代表概率图,𝐾𝑖作为卷积滤波器。

最后,为了抑制融合步骤中引入的噪声,我们通过掩码平均池化将融合特征图 \bar{𝐹}_𝑠  掩码为高精确的前景原型𝑃_𝑓。

其中𝑚_𝑠是支持图像的给定掩码,并调整为与\hat{𝐹̄}_𝑠相同的大小。

   

3.4 Background channel-structural multi-head attention (背景 通道-结构 多头注意力)

动机与前景以聚类原型作为局部细节不同,医学图像中的背景通常在很大范围内是无语义的。因此,BCMA不从空间维度进行挖掘,而是将通道维度中的结构信息视为局部细节。设计了一种可控的通道注意力机制,联合建模通道特定的结构信息,并将其纳入原始背景原型中。

过程:通过平均池化和重塑,将 \hat{𝐹}_𝑠 转换为 𝑃_𝑛 ∈ R^{(𝐻×𝑊)×𝐷}。随后,可控多头通道注意力模块 将 𝑃_𝑛 更新为 高精确背景原型 𝑃_𝑎。最后,将 𝑃_𝑎 重塑为特征图 \tilde{𝐹}_𝑠,并通过 背景原型选择 进一步将特征图 \tilde{𝐹}_𝑠  "裁剪" 为高保真背景原型 𝑃_𝑏。

背景原型选择 源码里好像是通过计算\tilde{𝐹}_𝑠和M_r之间相似度矩阵之后乘回\tilde{𝐹}_𝑠。(有点类似交叉注意力)

可控多头通道注意力模块:

作用:所提出的通道注意力机制以元素的方式将通道结构信息编码到原始背景原型中。

核心思想:施加稀疏的通道感知调节来调整学习到的全局通道关系,从而获得特定通道的结构信息。

输入(D路架构)为了达成原始原型的元素通过不同通道的结构信息独立精化的目的。在Q-K-V的方式中,设置𝐐=𝑄_𝑛,𝐊=𝑃_𝑛,𝐕=𝑃^𝑘_𝑛,其中 𝑄_𝑛 是按通道切片的 𝑃_𝑛(维度重整C -> D C')。𝑃^𝑘_𝑛 是 𝑃_𝑛 中第个原型向量。K,V 被复制D次并分别输入到 D 个头部。

结构该注意力的主要设计为 Incorporation unit(融合单元)和 Global exploration(全局探索单元)。前者预测第 j 个通道的全局结构信息 aj,而后者则作为控制器,注入第 j 个通道特定的调整量 r。以 达成施加稀疏的通道感知调节来调整学习到的全局通道关系,从而获得特定通道的结构信息的目的

过程首先,进行信道相似度计算,捕捉 𝑗-th 信道与其他信道之间关系的动态变化,得到通道相似度 𝒘_𝑐。

其中 𝒘_𝑐∈R^𝐷是通道相似度,其 𝑖th 元素为𝒘_{𝑐, 𝑖},函数cossim(⋅,⋅)测量向量 𝑄^𝑗_𝑛 在集合𝑄_𝑛上的余弦相似度,𝜙是softmax操作。

随后,在 Incorporation unit(融合单元)通过 随机生成的掩码向量m_w 索引 稀疏相关通道,生成调整系数 r。这一过程可以表示为

(这里引入掩码冻结向量作用:用于选择和固定某些特征或通道,以实现稀疏表示或特征选择的目的。)

其中参数 𝛽 表示控制强度。

然后,在 Global exploration(全局探索单元)中,由一个可学习的向量𝒂_𝑗 用于预测第 j 个通道的全局通道结构信息,通过与调整系数 r 相乘得到 背景原型第 j 个通道 特有的结构信息,记为 aj′​。最后,通过加权操作 P^k_n​×a_j′​ 生成𝑃^{𝑘𝑗}_𝑎。(达成 将通道结构信息编码到原始背景原型中 的目的。

3.5 Loss function

本文调节二元交叉熵来监督这个模型的训练过程:

其中,hat{m}^j_q(h, w) 是查询掩码标签 m^j_q(h, w) 的预测结果。

四、实验

数据集:Abdominal(腹部) CT dataset 、Abdominal MRI dataset、Cardiac(心脏) MRI dataset。

实验设置:在实验设置中,为了确保公平的比较,采用了与SSL-ALPNet相同的图像预处理解决方案。具体而言,沿着通道维度将图像采样为切片,并将每个切片的大小调整为256 × 256像素。此外,沿着通道维度将每个切片重复三次,以适合网络。采用5重交叉验证作为我们的评估方法,其中每个数据集被平均分为5个部分。

评估指标:Dice。

实验细节:使用Pytorch框架实现了提出的模型,并将预训练的完全卷积Resnet 101模型作为特征提取器。在MS-COCO数据集上对Resnet-101模型进行了预训练。由于超像素伪标签包含丰富的聚类信息,有助于解决标注缺失的问题。在开始模型训练之前,以离线方式生成超像素伪标签作为支持图像掩模。对于实验结果,使用随机梯度下降算法,批量大小为1,进行100k次迭代,以最小化等式中的目标。在单个Nvidia TITAN V GPU上进行自我监督训练大约需要4.5小时,内存消耗大约为8.1 GB。

4.1 定量和定性结果

在不同分割场景的三个挑战性的数据集Abdominal CT dataset、Abdominal MRI datase,Cardiac MRI dataset分别进行了评估。并且遵循两个实验设置,其中在Setting-1的实验中测试类可能出现在训练图像的背景中,对数据集中的所有类进行训练和测试,无需任何分区。Setting-2我们在训练阶段直接删除了包含测试类的图像,以确保模型没有见过测试类。

为了更直观观察,如图6中呈现了视觉分割结果。如图所示,DSPNet对大目标(见肝脏)有更好的分割,同时预测小目标(见脾脏)的更精细边界。

4.2 消融研究

从表3的结果中,可以看到,当删除三者中的任何一个时,与DSPNet相比,平均结果在一定程度上有所下降,但都优于SSL-ALPNet(基干)。

如图8所示,当去除其中任何一个时,分割效果都有明显的恶化。例如,当RAN不可用时,大目标分割将具有明显的漏洞(参见肝脏)。由于去除了特定背景的BCMA,一些背景区域被错误地分割。 

五、总结 

本文根据医学图像的局部信息丢失问题,推导了一种新的FSS方法--DSPNet。据我们所知,这是一个初步的努力,从这个角度来看:增强细节表示能力的现成原型的细节自细化。具体地说,我们介绍了两个关键的设计:分别用于前台类原型和后台细节原型生成的FSPA和BCMA模块。其中,前者通过融合从前景聚类而来的细节原型,实现细节自细化。后者将这种自细化建模为结合通道特定的结构信息,采用具有稀疏通道感知调节的多头通道注意。在3个具有挑战性的数据集上的最新实验结果验证了DSPNet的有效性。 

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词