从现代CNN到Vision Transformer:评估组织病理学中深度学习模型的性能、鲁棒性和分类策略

1. 引言

机器学习(ML)有可能改变组织病理学领域，病理学专家在显微镜下视觉检查染色的组织标本，例如癌症诊断。新的机器学习技术使得对大量数字化整张幻灯片图像(WSI)的快速、自动分析成为可能，并有望减轻传统工作流程中由人类专家进行耗时检查的负担。自动图像分析也有可能通过定量指标来增强这些工作流程，例如，通过准确量化整个WSI的肿瘤浸润淋巴细胞，而不是依赖于粗略的视觉估计。这些创新的改进主要是由深度学习(DL)的稳步发展推动的，深度学习是ML的一个分支学科，专注于多层神经网络。

本文的目标是从预测性能、可解释性和鲁棒性的综合角度，定量比较组织病理学背景下不同的最先进的模型架构。在五个组织病理学数据集上，对卷积神经网络(CNN)进行了基准测试，包括最近的结构，如ConvNeXt，以及视觉变压器(ViTs)和Swin变压器，其中特别是ViTs和Swin变压器模型尚未被广泛探索。关于可解释性，使用分层相关传播(LRP)框架为模型提供了相关热图，并因此将该框架扩展到以前未研究的模型体系结构。此外，提出了一种定量评估方案，通过与组织成分(特别是细胞核)进行比较，来评估由此产生的相关热图的合理性，病理学家在癌症诊断中对细胞核特别感兴趣，因为这是细胞分裂和增殖过程发生的地方。

最后，将重点放在模型对染色变化的鲁棒性上。为了进行定量评估，建议使用一种图像到图像的转换模型(CycleGAN)，以便从分布变化的其他来源中分离出染色变化的影响。主要贡献是:(a)一个全面的方法来比较广泛的最先进的图像识别模型的性能，包括CNN和Vision Transformer，跨越五个公开访问的组织病理学数据集，涵盖不同的癌症和组织类型;(b)对几个考虑的模型实施LRP，并使用可解释性与分割技术相结合的新方法来量化整个数据集的关注焦点，以及(c)使用新的生成对抗网络架构来衡量癌症分类模型对染色变化的鲁棒性。

2. 材料和方法

2.2 模型

ResNet、ConvNeXt 和 Inception V3是现代卷积神经网络（CNN）的代表。原始的ViT 以及Swin Vision Transformer，一种具有ViT主干和更精细的补丁处理的模型。此外，还包括一个BoTNet50模型，其中最终 ResNet 块中的卷积层已被多头自注意力层所取代，这些层是Transformer 的架构构建块。值得强调的是，尽管后一种模型体系结构通常被称为CNN-Transformer模型，但它更像是具有非局部注意力层的ResNet模型，而不是像ViT或Swin Vision Transformer这样的实际变压器模型。

GasHis具有局部和全局特征提取模型，其特征向量被连接并转发到多层感知器头部。以Inception V3作为局部特征模型，BotNet-50作为全局特征模型，将架构连接到混合模型中是否对组织病理学背景下的性能有切实的影响。复杂和轻量级的变体适用于ConvNeXt, ViT和Swin架构，具有微小(ConvNeXt- T, vit-T, Swin - T)和大型变体(ConvNeXt- l, vit-L, Swin - T)。

由于组织病理学领域的几乎所有数据集的训练样本都相对较少，依赖于在ImageNet上的预训练。为了使用来自单一、共同来源的预训练权重，以确保根据最新标准进行ImageNet预训练的可比性。在不确定的情况下，选择了在最大可用数据集上预训练的权重：预训练数据集分别是Inception V3的ImageNet、ViT和ResNet变种的ImageNet-21k，以及Swin转换器和ConvNeXt变种的ImageNet-22k。

为了更深入地了解预训练对组织病理学分类任务中架构性能的影响，研究了在PCam数据集上使用预训练权重进行微调与从头开始训练的效果。所有模型的微调训练过程保持一致。在PCam上，使用了AdamW优化器，超参数为β1=0.9；β2=0.999； $\varepsilon =10^{-8}$ ，权重衰减λ=0.001，学习率为0.0005，进行了3个周期的训练（微调仅占总训练时间的15%）。

微调时，使用其他优化器或预热策略并未观察到任何好处。这种微调过程也用于所有其他数据集，但较小数据集的训练周期有所增加。当在PCam上从头开始训练时，针对每个架构单独定制了训练过程。所有模型都以0.0015的学习率进行训练。ResNet变种、Botnet-50、Inception V3和GasHis使用AdamW优化器进行训练，超参数为β1=0.9；β2=0.999； $\varepsilon =10^{-8}$ ，权重衰减λ=0.001。

2.3 质量方面及其评价

2.3.1 预测性能

对于每种模型架构，研究者们进行了k = 5次独立的训练运行，以减小训练过程中的随机性（如权重初始化、数据洗牌等）对结果的影响。

由于测试集的大小是有限的，这可能导致性能评估结果存在统计不确定性。为了量化这种不确定性，对测试集进行了经验自助法（empirical bootstrapping）分析，共进行了100次迭代。

为了比较两个模型架构的性能，结合了两方面的不确定性（训练过程的随机性和测试集的有限性）。设定了一个准则，即如果至少在k(k + 1) / (2k^2) = 60%的k × k次直接比较中，两个架构的得分差异的95%置信区间与零重叠或第一个架构的性能优于第二个架构，则声称第一个模型集M1的性能并不显著差于第二个模型集M2。60%的阈值来源于一个惯例，即一组训练好的模型M = {m_1, ..., m_k}不应该显著差于它自身，即使自助法可能导致这些模型之间的性能排序（例如m_1 ≺ m_2 ≺ ... ≺ m_k）。这里的m_i ≺ m_j表示m_i的性能差于m_j。

2.3.2 健壮性

对稳健性的评估如下：首先，在原始的BreaKHis或IDC序列分割上训练分类模型。(为了允许两个数据集之间的直接比较，使用IDC子类作为正类，所有良性样本作为负类，在BreaKHis上训练二元分类器。)然后，分别在原始BreaKHis/IDC测试分割和使用单独的图像到图像翻译模型重新着色的BreaKHis/IDC图像上评估结果分类器。

周期一致对抗网络(CycleGAN)代表了一种基于未配对数据训练图像到图像翻译模型的方法。与全卷积编解码器架构类似，图像被下采样到低维表示，然后再次上采样，训练以保留相关特征。该生成器是一个带有多个跳跃连接的nnU-Net，用于学习相关的结构信息。其他可用于染色归一化的GAN适应物是StainGAN 和RestainNet。所有这些实现都旨在执行模板颜色匹配方法，以便在保留图像内容的同时将图像或数据集的颜色分布调整到指定的目标。

在CycleGAN中，生成器采用了通用的nnU-Net结构，这是专门为医学图像分割而设计的U-Net的一个变种。生成器的输出通过 硬tanh函数 作为最终激活函数来计算，得到0到1之间的输出值。由于nnU-Net的内部连接，模型被迫保留高分辨率的结构组件，并主要学习颜色变换。

判别器的架构由三个卷积层组成，后面跟着一个2D平均池化层，用于将判别器的输出维度降低。每个卷积层之后都跟着一个2D批量归一化和一个激活函数。前两个卷积层使用ReLU激活函数，而第三个卷积层则使用sigmoid函数。接下来的2D平均池化使得判别器在比较原始图像和合成图像时更依赖于颜色信息，而不是结构信息。

在完整的BreaKHis数据集（包含7909张图像，包括2013张40倍放大的图像）和IDC数据集的测试集（11052张图像）上，分别训练了5个CycleGAN，每个都进行了50个epoch的训练。由于样本数量的限制，包含了所有放大倍数的BreaKHis数据集用于训练CycleGANs。对于IDC数据，由于与完整BreaKHis数据集样本数量相似，在IDC测试集上训练了CycleGANs。

2.3.3 可解释性

LRP：这是一种将模型的预测结果追溯到输入的方法，从而生成相关性热图。热图中的颜色深浅表示了输入的不同部分对于模型最终预测结果的贡献程度。

模型实现：作者为ResNet、BoTNet、Inception模型和ConvNeXt变体实现了LRP规则。这些实现为比较不同模型之间的热图提供了一个连贯的框架。

癌症分类研究：为了研究模型在癌症分类中的策略，作者使用LRP对所有PCam数据集中的癌症阳性样本的标签进行了传播。通过平均颜色通道并将所有负相关性设置为零（称为Rmean,max0 pooling）的方法，强调了与癌症阳性分类相关的图像区域。

注意力图：除了LRP外，作者还使用了注意力图作为XAI的一种手段。这些注意力图是模型最后一层的注意力权重，根据相应的令牌位置重新排列成补丁位置。与LRP不同，注意力图不直接携带与分类相关的语义上下文，但突出了具有大注意力权重的令牌。

3. 结果与讨论

3.1 预测表现

复杂的架构在小型数据集上更容易过拟合，而它们的轻量级对应物由于复杂性有限，在这种情况下显然更擅长泛化。然而，这并不总是如此，因为所有重型变体在 MHIST（第二小的数据集）上都超过了相应的轻量级变体，尽管并不总是显著。

3.2 健壮性

3.2.1 通过CycleGAN重新着色测试数据

使用CycleGAN生成了重新染色的测试图像，并通过比较原始图像和目标图像的色调值直方图来评估CycleGAN训练的效果。选择第50轮次作为训练的停止点，并通过展示不同训练轮次和方向的直方图来确保生成的图像在染色上与目标分布相似。这为后续使用这些重新染色的图像来测试模型对染色变化的鲁棒性提供了基础。

通过使用CycleGAN的生成器模型，研究者们能够将一个数据集（IDC或BreaKHis）中的图像斑块颜色分布映射到另一个数据集，并反之亦然，使得一个数据集的图像斑块在颜色上模仿另一个数据集的图像斑块。 CycleGAN能够在正确方向上定性地移动分布，但产生的假数据集在第一种情况下（可能是指从IDC到BreaKHis的转换）始终较窄。这可能是因为生成器能够根据原始分布的形状移动和倾斜分布，但在线性直方图拉伸方面存在困难。