Aligning Medical Images with General Knowledge from Large Language Models 论文解读

背景

这篇论文的背景聚焦于将大型视觉-语言模型（Vision-Language Models, VLMs）应用于医学图像分析领域的挑战与潜力。

1. 医学图像分析的重要性

医学图像分析在医疗保健中扮演着关键角色，能够实现多种疾病的非侵入式诊断与治疗。
随着深度学习技术的兴起，基于计算机辅助的医学图像分析在许多场景中取得了显著成功。

2. 传统方法的局限性

监督学习依赖标注数据：当前医学图像分析通常采用监督学习方法，需要大量标注数据进行模型训练。然而，手动标注医学图像既费时又昂贵。
跨领域的适应性问题：医学图像的特性（如结构性和抽象医学术语）与自然图像差异显著，使得基于自然图像训练的模型难以直接适应医学领域。

3. 大型视觉-语言模型的兴起

模型代表：例如，CLIP模型通过大规模图像-文本对比学习，展示了良好的迁移学习能力。
优势：
- CLIP等VLM在自然场景任务中的泛化能力突出。
- 它们可以利用跨模态学习将视觉特征与文本特征对齐。
不足：
- 预训练主要基于网络抓取的数据（如自然场景图像和对应描述），缺乏医疗数据（受隐私保护影响）。
- 医学领域的描述语言更抽象，如涉及复杂的医学术语，直接应用VLM可能效果不佳。

4. 启发与解决方法

视觉特征提取的可解释性：
- 医生在诊断时通常基于图像中的颜色、形状和纹理等直观特征，这些特征也可以跨领域共享（自然场景与医学图像）。
- 通过将抽象的医学术语转化为这些直观的“视觉症状”（Visual Symptoms），可以更有效地利用VLM进行医学图像分析。
研究目标：
- 构建一种新型框架，将大型语言模型生成的视觉症状与VLM结合，实现医学图像分析中的知识迁移和性能提升。

要解决的问题

这篇论文旨在解决将大型视觉-语言模型VLMs应用于医学图像分析领域时面临的以下核心问题：

1. 医学图像分析中的标注数据稀缺问题

问题描述：
- 当前医学图像分析方法通常依赖监督学习，需要大量高质量的标注数据。
- 医学图像的标注需要专业的医学知识，人工标注成本高且费时。
待解决：
- 如何在标注数据稀缺的情况下，通过迁移学习有效利用预训练模型的知识？

2. VLM在医学领域的泛化能力不足

问题描述：
- 像CLIP这样的VLM主要基于自然图像-文本数据（从互联网上抓取）进行训练，这些数据通常与医学领域无关。
- 医学图像描述常使用抽象的医学术语（如“肺实变”、“非均匀边缘”），这些术语难以直接被CLIP理解和处理。
待解决：
- 如何使VLM能够更好地理解医学图像及其特定描述？
- 如何将自然场景的视觉-语言知识迁移到医学图像领域？

3. 医学图像特征的可解释性和对齐问题

问题描述：
- 医生在医学诊断中主要依赖视觉特征（例如颜色、形状、纹理）进行分析，而这些特征通常是跨领域通用的。
- VLM无法直接对齐医学图像特征与其描述之间的关系，尤其是涉及更复杂的多模态输入。
待解决：
- 如何生成跨领域可解释的医学视觉特征（视觉症状）？
- 如何利用这些特征改进医学图像分类和诊断的准确性？

4. 现有方法在低资源环境下的性能不足

问题描述：
- 当前的方法在数据充足时可能表现良好，但在稀缺的训练数据（如罕见病或小样本任务）场景下，模型表现大幅下降。
待解决：
- 如何在低资源环境中提升模型的性能和泛化能力？

5. 知识生成与利用的优化

问题描述：
- 医学图像分析需要模型生成有意义且与任务相关的知识，例如描述病变的视觉特征。
- 然而，VLM生成的知识可能包含不相关、误导性或错误的信息，影响模型的预测和解释能力。
待解决：
- 如何生成任务相关、准确且有意义的医学知识？
- 如何设计模型有效地整合这些知识以提高分类和诊断的性能？

通过提出ViP框架，这篇论文试图在以下几个方面改进现状：

在低资源医学图像分析中提升VLM的迁移能力。
利用大型语言模型生成可解释的视觉症状，解决医学领域术语的对齐问题。
提出双重可学习提示（Context Prompt和Merge Prompt），优化特征聚合与任务上下文适配。
提升模型在稀缺数据和低资源场景下的泛化性能。

详解框架

ViP框架详解

ViP (Visual symptom-guided Prompt learning) 是一种新型的医学图像分析框架，通过整合预训练大型语言模型（LLM）和视觉-语言模型（VLM），实现跨领域知识迁移和医学图像分析的性能提升。其核心思想是生成可解释的“视觉症状”（Visual Symptoms），以增强模型对医学图像的理解和分类能力。

框架结构

ViP框架由两大核心模块组成：

在这里插入图片描述

1. 视觉症状生成器（Visual Symptom Generator, VSG）

功能：从大型语言模型（如GPT-4）生成与疾病类别相关的可解释视觉特征（如颜色、形状、纹理）。
工作步骤：
1. 文本提示生成粗粒度视觉症状：
  - 提供背景信息（如疾病类别、图像类型）给语言模型，生成疾病相关的视觉症状描述。
  - 示例提示语：
```
我将使用CLIP检测{疾病类别}的{图像类型}，请列出可用于诊断的视觉特征，并用CLIP能理解的简单语言描述。
```
2. 图像辅助生成细粒度视觉特征：
  - 通过输入多张疾病相关的医学图像，进一步询问语言模型提取视觉特征（如颜色范围、形状特点）。
3. 综合特征：
  - 将上述两步结果交叉验证，筛选出关键的、与任务相关的视觉特征。
4. 输出示例：
  - “颜色：深色区域，黑色、棕色和红色”
  - “形状：不对称且边缘模糊”

2. 双重提示网络（Dual-Prompt Network）

功能：将视觉症状作为输入，通过可学习的提示模块（prompt modules）优化CLIP的分类性能。
组成模块：
- 上下文提示模块（Context Prompt, CoP）：
  - 在视觉症状前添加可学习的上下文信息，以适配医学任务。
  - 示例：将“颜色深色区域”包装为“这是一张显示深色区域的医学图像”。
  - 使用一组可学习的Token，动态生成适合任务的上下文模板。
- 特征融合提示模块（Merge Prompt, MeP）：
  - 聚合多条视觉症状的特征表示，生成疾病的整体表示。
  - 通过可学习的权重对不同视觉症状赋予不同的重要性。

MeP

MeP的具体操作
- 对于每个疾病类别 $c$ ，给定通过文本编码器处理相关视觉症状得到的文本特征矩阵 $T = [T_{1}^{c}, T_{2}^{c},..., T_{k}^{c}]^{T}$ （其中 $\in \mathbb{R}^{k \times d}$ ， $d$ 是文本嵌入维度）以及一个可学习的分组标记 $\in \mathbb{R}^{d}$ 。
- 首先将 $g$ 和 $T$ 通过不同权重 $W_{q} \in \mathbb{R}^{d \times d}$ 和 $W_{k} \in \mathbb{R}^{d \times d}$ 投影为查询 $Q$ 和键 $K$ ，公式为： $Q = gW_{q}$ ， $K = TW_{k}$ 。
- 然后通过计算分组提示 $g$ 和加权文本特征矩阵 $T$ 的组合来得到聚合特征 $s^{c}$ ，公式为： $s^{c} = g + \text{Softmax}\left(\frac{QK^{T}}{\sqrt{d}}\right)T$ 。
优化与损失函数：在获得所有疾病类别的聚合视觉描述性特征后，CoP和MeP与交叉熵损失共同优化，交叉熵损失公式为：
$L_{ce} = -\log \frac{\exp(f \cdot s^{c_{y}} / \gamma)}{\sum_{i = 1}^{N} \exp(f \cdot s^{c_{i}} / \gamma)}$ 其中 $c_{y}$ 表示真实疾病类别， $\gamma$ 是学习到的温度。

工作流程

输入数据：
- 输入一个医学图像 $x$ 以及一个疾病标签集合 $C = \{c_1, c_2, ..., c_n\}$ 。
特征提取：
- 图像通过CLIP的视觉编码器生成图像特征向量 $f$ 。
视觉症状生成（VSG）：
- 调用LLM生成每个疾病类别的视觉症状集合 $S_c = \{s_1, s_2, ..., s_k\}$ 。
- 每个视觉症状描述疾病的颜色、形状和纹理等特征。
上下文提示（CoP）：
- 将视觉症状包装为CLIP可理解的上下文文本嵌入。
- 输出上下文化的文本嵌入 $T_c$ 。
特征融合（MeP）：
- 对所有文本嵌入 $T_c$ 进行加权融合，生成疾病类别的聚合特征表示 $s_c$ 。
疾病预测：
- 计算图像特征向量 $f$ 与疾病特征 $s_c$ 的余弦相似度 $\cdot s_c$ 。
- 相似度最高的类别即为预测结果。
输出：
- 返回预测的疾病类别，以及与预测结果相关的视觉症状（提高模型的可解释性）。

框架优势

跨领域知识迁移：通过引入LLM生成视觉症状，弥合自然语言和医学领域的鸿沟。
低资源适应性：在稀缺标注数据环境下，仍能实现优异性能。
可解释性强：预测结果直接关联生成的视觉症状，便于医学专家理解和验证。

实验

实验设计与分析

论文通过在医学图像分析的两个数据集上进行实验，验证了ViP框架的有效性，展示了其在提升分类性能、泛化能力以及可解释性方面的优势。

1. 数据集

Pneumonia Dataset：
- 包含胸部X光图像。
- 图像类别：正常肺部与肺炎。
- 数据分布：
  - 训练集：5232张图像（官方提供划分，其中90%用于训练，10%用于验证）。
  - 测试集：624张图像。
Derm7pt Dataset：
- 包含皮肤镜图像。
- 图像类别：黑色素瘤与痣。
- 数据分布：
  - 训练集：346张图像。
  - 验证集：161张图像。
  - 测试集：320张图像。

2. 实验设置

评估指标：
- 准确率（Accuracy, ACC）：衡量模型的总体分类性能。
- 宏平均F1分数（Macro F1-score, F1）：计算每个类别的F1分数的算术平均，适用于不平衡数据集。
对比方法：
- 基线方法：
  - 原始CLIP模型（仅使用类别名称作为文本输入）。
- 现有SOTA方法：
  - CoOp：可学习的类别提示模板。
  - CoCoOp：条件提示模板，能自适应上下文。
  - KgCoOp：结合知识图谱优化提示学习。
  - Bayesian Prompt Learning：基于贝叶斯推断的提示学习。
  - MaPLe：多模态提示学习。
- 完全监督学习：使用完整标注数据进行训练的传统模型。

3. 实验结果

3.1 ViP的性能对比

结果总结（表格为简化版）：

方法	Pneumonia (ACC/F1)	Derm7pt (ACC/F1)
CLIP (Zero-Shot)	58.6% / 55.5%	55.4% / 45.6%
CoOp	83.4% / 81.5%	78.2% / 73.3%
MaPLe	85.5% / 83.9%	79.0% / 72.5%
ViP (本研究)	86.7% / 84.9%	81.1% / 77.3%

观察：
- 在Pneumonia数据集上，ViP在准确率和F1分数上均达到最高，证明其对大型数据集的强适应能力。
- 在Derm7pt小样本数据集上，ViP显著优于其他方法，验证了其在低资源环境中的泛化能力。

3.2 零样本实验（Zero-shot Analysis）

评估使用类别名称与视觉症状作为文本输入时的性能差异。
结果：
- 使用类别名称的CLIP准确率为58.6%（Pneumonia）和55.4%（Derm7pt）。
- 引入视觉症状后，准确率分别提高到83.4%和74.1%。
结论：
- 视觉症状大幅提升了模型的分类性能，证明其在跨领域任务中的知识迁移能力。

3.3 可解释性分析

案例分析：
- 对比CLIP和ViP的诊断结果，并标注关键视觉症状（例如“肺炎影像特征：模糊肺部边缘，存在胸腔积液”）。
- 在正确分类的情况下，ViP提供的视觉症状解释与医生的诊断依据一致。

3.4 失败案例分析

问题示例：
1. 图像缺乏明显的疾病特征（如轻微肺炎）。
2. 视觉症状之间的特征冲突（如“边缘模糊但颜色一致”）。
改进方向：
- 增强视觉症状的特征权重学习，解决特征冲突问题。

4. 消融实验

为评估框架中各模块的作用，设计以下消融实验：

4.1 模块贡献

消融上下文提示（CoP）和特征融合提示（MeP）的实验：

模块组合 Pneumonia (ACC/F1) Derm7pt (ACC/F1)
无提示模块 58.6% / 55.5% 55.4% / 45.6%
仅有MeP 84.9% / 83.1% 75.3% / 61.9%
CoP+平均融合 85.5% / 83.5% 80.4% / 76.5%
CoP+MeP 86.7% / 84.9% 81.1% / 77.3%
结论：
- 上下文提示模块和特征融合模块对性能提升起关键作用。
- 可学习的融合方法（MeP）优于平均或最大融合策略。

模块组合	Pneumonia (ACC/F1)	Derm7pt (ACC/F1)
无提示模块	58.6% / 55.5%	55.4% / 45.6%
仅有MeP	84.9% / 83.1%	75.3% / 61.9%
CoP+平均融合	85.5% / 83.5%	80.4% / 76.5%
CoP+MeP	86.7% / 84.9%	81.1% / 77.3%

4.2 知识信任度

替换正确的视觉症状描述为：
1. 错误知识：如将“边缘模糊”替换为“边缘清晰”。
2. 无用知识：如描述皮肤结构而非病变特征。
3. 领域外知识：如食品的颜色和形状描述。
结果：
- 正确的视觉症状显著提升性能，而错误或无关知识会降低性能，甚至比基线更差。

5. 实验结论

性能提升：ViP在多个数据集上超越现有SOTA方法，尤其是在低资源数据集（Derm7pt）上表现出色。
可解释性强：通过视觉症状与诊断结果的关联，提高了模型的透明性。
鲁棒性验证：模块消融和知识替换实验进一步验证了各组件的有效性和框架设计的合理性。