欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 汽车 > 时评 > D-Master:用于乳房x光片乳腺癌检测的无监督域自适应掩模退火Transformer

D-Master:用于乳房x光片乳腺癌检测的无监督域自适应掩模退火Transformer

2024/10/25 14:19:12 来源:https://blog.csdn.net/qq_47896523/article/details/143220219  浏览:    关键词:D-Master:用于乳房x光片乳腺癌检测的无监督域自适应掩模退火Transformer

        研究基于无监督域自适应(UDA)的乳房x光检查(BCDM)问题。最近的进展表明,掩膜图像建模可以作为UDA的稳健借口任务。然而,当应用于跨域BCDM时,这些技术很难处理乳房异常,如肿块、不对称和微钙化,部分原因是与自然图像相比,感兴趣的区域通常要小得多。这通常会导致每张图像出现更多的误报(FPI),并且通常用于引导此类技术的伪标签中存在明显的噪声。

        认识到这些挑战,引入了一个基于Transformer的  域不变掩码退火学生教师自编码器(D-MASTER)框架。D-MASTER自适应屏蔽和重建多尺度特征图,增强了模型捕获可靠目标域特征的能力。D-MASTER还包括自适应置信度细化过滤伪标签,确保只考虑高质量的检测。提供了来自RSNA乳腺筛查数据集(称为RSNA- bsd1k)的1000张乳房x光片的边界框注释子集,以支持BCDM的进一步研究。在来自不同领域的多个BCDM数据集上评估了D-MASTER。


1. 介绍

        深度神经网络 (DNN) 在医学图像分析方面取得了令人瞩目的突破 ,并在特定任务(例如乳房 X 线摄影中的乳腺癌检测)中表现出色。然而,当训练数据和部署环境之间存在分布差距时,它们的性能会相对较低。这种影响在医学成像问题中尤为明显,因为相对较小的规模和注释数据集的数量,使得 DNN 模型无法捕获领域不变的特征。这会影响网络在不同地区、不同机器、技术和图像采集协议之间的通用性。虽然目标人群中的图像可用于微调模型,但由于没有医学专家,注释通常更昂贵。因此,在医学成像问题中,迫切需要有效的无监督领域自适应 (UDA) 方法。

        在自然图像中,UDA已得到广泛研究,利用对抗学习、伪标签训练、图像到图像转换 [40]、图推理和自适应均值 Teacher 训练等技术,提高了物体检测器的域自适应效率。最近,多项研究专注于在视觉模型的大规模预训练中使用 Mask 自动编码器 (MAE) 方法,包括屏蔽部分输入并重建它们。然而,这些方法忽略了域转换。另外,广泛使用 Teacher-Student 模型,其中 Teacher 为目标域(未标记图像)提供伪标签来监督 Student 模型,可显著提高自适应性能。然而,由于伪标签质量低下,这些技术面临着每个图像预测错误和假阳性过多的挑战,尤其是在医学成像问题中。根据置信度分数阈值,从 Teacher 模型的输出中过滤掉伪标签。选择大量低阈值伪标签会导致包含错误预测,并影响性能。 相反,较高的阈值会产生有限数量的伪框,从而导致监督不理想。现有的教师-学生模型通常会产生充满错误和误报的伪标签,如图 (1a) 和图 (1b) 所示。虽然 利用对抗性对齐、弱强增强和选择性再训练学生模型等技术来最大限度地减少伪标签中的误报,但这些方法在医学图像上失败了。

1.1 研究的贡献

        筛查性乳房 X 线摄影本质上不同于自然图像,乳房异常(例如肿块、不对称和微钙化)通常比自然图像中存在的显著物体小得多,这强调了针对此问题的特定方法的必要性。为了解决这些问题,在本研究中做出了以下贡献:

        (1)引入了 D-MASTER,这是一种基于变换器的域不变掩模退火学生教师自动编码器框架,用于从乳房 X 线摄影 (BCDM) 中跨域检测乳腺癌,它集成了一种新颖的掩模退火技术和自适应置信度细化模块。与使用掩模自动编码器 (MAE) 进行预训练不同,利用大量数据集进行训练,然后在较小的数据集上进行微调,为 MAE 分支提出了一种新颖的可学习掩模技术,该技术可生成不同复杂度的掩模,然后由 DefDETR编码器和解码器重建。本文提出的方法作为目标图像上的自监督任务,使编码器能够获得领域不变特征并学习更好的目标表示。

        (2)在师生模型中,由于教师产生的伪标签噪声严重影响学生模型,提出了一个自适应置信度细化模块,逐步限制伪标签过滤的置信度指标。在初始适应阶段,应用软置信度,允许更多伪标签学习更好的目标表示。随后,随着置信度逐渐增加,重点转向通过优先考虑更可靠的伪标签来提高检测准确性

2. 提出的方法

        对于 UDA 设置中的跨域 BCDM 问题,有一个带注释的源数据集 \mathcal{D}_{s} = \{(x_{i}^{s},y_{i}^{s})\}_{i=1}^{N_{s}},其中包含 N_s 个样本,其中每个样本 x 代表乳房 X 光片,y=(b,c)表示恶性肿瘤的注释,包括边界框 b 和相应的恶性类 c。如果样本是良性的,则没有相应的边界框注释。 此外,有一个未注释的目标数据集 \mathcal{D}_{t}=\{x_{i}^{t}\}_{i=1}^{N_{t}},其中包含 N_t 个样本。 目的是通过仅在源数据集 D_s 和目标图像 D_t(目标标签不可用)上训练模型来提高目标数据的性能。

2.1 提出的架构

        UDA的最新进展使用自适应师生模型,对抗性对齐和选择性再培训以实现领域适应。提出的D-MASTER架构遵循相同的风格,如图(2)所示。我们利用在源域DS上预训练的变形DETR [44](DefDETR)检测器作为架构中的主干。

 师生模型

        该模型由两个主要分支组成:特定目标教师和跨领域学生。教师专门处理来自目标域(D_t)的弱增强图像,而学生处理来自两个域(D_sD_t)的强增强图像,在整个训练过程中,Teacher模型为 D_t 生成伪标签,然后利用这些标签来训练Student模型。而student模型不仅要学习源领域的标注信息,还要学习Teacher模型为目标领域生成的伪标签。此外,学生在每次迭代后通过指数移动平均值(EMA)向老师更新其获得的知识,\theta_T\leftarrow\alpha\theta_T+(1-\alpha)\theta_S。对于源域,学生模型使用真实的标注来计算监督损失L_{sup},而对于目标域x_s,student模型使用teacher模型生成的伪标签来计算无监督损失L_{unsup},这是通过交叉熵损失函数来计算的。

对抗性学习

        有一个“老师”模型和一个“学生”模型。因为标注信息只存在于源图像(D_s)上,所以这两个模型在学习过程中可能会偏向源图像。为了避免这个问题,方法中引入了对抗性学习。对抗性学习是通过“领域判别器”(D)来实现的,这些判别器被放在模型的某些部分后面,用来预测特征属于哪个领域。判别器通过二元交叉熵损失(L_{dis})来更新。在D-MASTER中,判别器被放在了模型的骨架、DefDETR编码器和解码器。使用标准的对抗性损失(L_{dav}),通过一个叫做“梯度反转层”的东西来实现最小化和最大化的优化。

        学生模型的整体目标(L_{teach})是由三部分组成的:监督损失(L_{sup},即有标注信息的损失)、无监督损失(L_{unsup},即没有标注信息的损失)和对抗性损失(L_{adv})。

        基于Transformer的模型在进行跨领域训练时,特别是在包含噪声标注的情况下,很容易对目标数据过拟合。因为teacher模型是通过指数移动平均(EMA)从学生模型不断更新而来的,所以它也可能会受到影响,产生错误和有限的伪标签。为了解决这个问题,D-MASTER采用了一种叫做“选择性重训练”的机制,帮助学生模型跳出由于错误伪标签导致的局部最优解。具体来说,就是在一定的训练周期后,学生模型的骨架和编码器会被重新初始化为源图像训练好的权重\theta _{s})。

        简单来说,D-MASTER是一个复杂的机器学习方法,它通过对抗性学习和选择性重训练来提高模型在跨领域和存在噪声标注的情况下的表现。

2.2  遮挡退火的自动编码器

     D-MASTER架构中,DefDETR编码器使用了多尺度特征图,这些特征图表示为\{X_i\in R^{C_i \times H_i \times W_i}\}^K_{i=1} 从i=1到K,其中K是特征图层的数量。为了提升模型性能,创新性地提出了一种遮罩退火技术。

        简单来说,这种技术会用掩码\{m_i \in\{0, 1\} ^{H_i\times W_i}\}^K_{i=1} 从i=1到K来覆盖特征图,初始的遮罩比例是\mu _t,也就是说特征图中有\mu _t\%的像素会被遮罩住(即设为0)。

        还设计了一个易到难的遮罩退火课程。这个课程可以自适应地遮挡图像块,使得重建任务有时简单,有时困难。这样做的目的是为了逐步增加模型的难度,提高其学习能力。

        在训练过程中,我们使用带有温暖重启的随机梯度下降法来优化步长\eta _t。这个步长的计算公式是:\eta_t = \eta^i_{\text{min}} + \frac{1}{2} (\eta^i_{\text{max}} - \eta^i_{\text{min}}) \left( 1 + \cos \left( \frac{T_c}{T_i} \pi \right) \right)。在这个公式里,\eta ^i_{min}\eta ^i_{max}是步长的范围,T_c表示自上次重启以来已经完成的迭代次数,而T_i则是下一次进行SGD温暖重启时的迭代次数。

        总的来说,遮罩退火技术和相应的步长优化方法都是为了让D-MASTER架构中的DefDETR编码器能够更好地学习和提取特征,从而提高模型的性能。

重建

        在特征图被遮盖之后,接下来使用DefDETR编码器中的可变形注意力机制来进一步编码这些特征图。这个编码器能够帮助我们更好地理解和处理图像中的信息。在编码器的输出特征中,使用一个共享的掩码查询(即一个特定的查询方式)q_m 来填充那些被遮盖的部分。然后,将这个填充后的特征图发送给MAE解码器D_s,让它来尝试重建那些被遮盖的部分。

        考虑到特征图的最后一层,我们称之为X_K,它包含了所有的语义信息(就是图像的主要内容和意义)。为了加快训练速度和降低计算成本,选择只重建这一层。解码器的最后一层是一个线性投影,它的输出通道数与X_K的通道数相匹配,这样就能确保重建出来的特征图与原来的特征图在结构上是一致的。

        最后,为了监督重建过程的效果,计算重建后的特征图(用\hat{X}_K表示)和原始特征图(X_K)之间的均方误差。这个误差就是我们所说的重建损失L_{mask}。因此,学生模型的整体目标L就是教师模型基于的损失(L_{teach})和重建损失(L_{mask})的和。

        简单来说,这段话就是在描述一个图像重建的过程:先遮盖特征图的一部分,然后用编码器处理它,再用解码器尝试重建被遮盖的部分,并通过计算误差来监督这个过程的效果。

自适应置信度细化(OCR)

        伪标签的正确性与用于过滤的置信度紧密相关。在学习的早期阶段,由于存在较大的领域偏移(即训练数据和测试数据之间的差异较大),置信度往往不太可靠。为了解决这个问题,提出了一种逐渐从“软”置信度过渡到“硬”置信度的方法,这个过程叫做自适应置信度精炼(ACR)。

具体来说,开始时使用软置信度C_s,随着迭代的进行,逐渐增加硬置信度C_h的重要性,通过一个变化的权重 \delta 来实现 C=(1-\delta )C_s+\delta \: \: C_h。这个权重 \delta 是根据以下公式确定的:\delta =2\cdot \frac{1}{1+exp(-\alpha \frac{t}{e})}-1,其中 表示当前的迭代次数,e表示总的迭代次数,α是一个超参数。

        在每次迭代中,都会从教师模型中生成一个伪标签。如果这个伪标签的置信度超过了我们的阈值C(这个阈值是C_sC_h的加权和),那么我们就认为这个伪标签是有效的,并会用它来计算无监督损失L_{unsup}(即没有真实标签时的损失)。

        简单来说,这段话就是在讲一个提高伪标签准确性的方法。在学习早期,我们使用比较宽松的“软”置信度,随着学习的进行,我们逐渐过渡到更严格的“硬”置信度,通过一个变化的权重来实现这个过渡。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com