额颞叶痴呆(FTD)是一种常见的早发型痴呆,特征是进行性神经退行性病变,包含一组异质性疾病。由于症状重叠,FTD及其亚型的诊断仍具有挑战性。本研究旨在通过分析脑萎缩与认知功能的联合模式,探索能否对FTD患者进行亚型分类。共纳入来自额颞叶退行性变神经影像倡议(FTLDNI)数据库的136名患者,其中行为变异型FTD 70例、语义变异型原发性进行性失语症36例、非流利变异型原发性进行性失语30例。利用偏最小二乘法(partial least squares, PLS)分析变形形态学测量的脑萎缩指标与认知测验之间的潜变量关系,并通过线性回归模型区分三种FTD亚型之间脑萎缩与认知衰退的关系差异。最后,我们评估了偏最小二乘分析所识别的潜变量(脑萎缩与认知模式)的组合能否用于分类FTD患者亚型。
结果表明,三种FTD亚型患者脑萎缩与认知能力的联合潜变量模式可成功实现分类,准确率达87.18%到91.46%,特异性高(91.46–97.15%),敏感性佳(84.19–93.56%)。在仅采用MRI测量与两种行为测验的条件下(临床实际更可行),模型在相同参与者样本中的表现依然精确(87.18%)。这一结果表明,即使在临床测试有限的条件下,结合变形形态测量指标的加入也显著提高了分类准确性。本研究结果表明,联合脑萎缩和临床特征并采用多变量统计方法可作为FTD疾病表型分类的有效生物标记。本文发表在BRAIN COMMUNICATIONS杂志。
关键词:磁共振成像,机器学习,额颞叶痴呆,分类,神经退行性病变
图形摘要
引言
额颞叶痴呆(Frontotemporal dementia, FTD)是最常见的早发型痴呆之一,其特征为大脑额叶和颞叶的萎缩和胶质增生,以及神经病理学上异常的高磷酸化蛋白沉积,典型的成分为tau蛋白或TDP-43。临床上,FTD涵盖了一组异质性的神经病理学疾病,会引起广泛的症状,包括行为、语言、执行控制和运动功能的变化。FTD的核心谱系综合征包括行为变异型FTD(bvFTD)、非流利型原发性进行性失语(nfvPPA)和语义型原发性进行性失语(svPPA)。FTD还包括以运动障碍为主要特征的亚型,例如进行性核上性麻痹和皮质基底节综合征。bvFTD患者早期表现为行为异常、人格与情感变化、执行控制和社会认知功能减退,包括冲动、强迫行为、饮食改变、冷漠或缺乏共情。在原发性进行性失语中,认知缺损主要表现在语言领域。症状发生5至7年后,随病理扩散,患者会进一步出现bvFTD的行为症状。svPPA患者逐渐表现出概念性知识缺损、单词提取困难和单词理解力减退,而nfvPPA的典型表现为费力的言语,伴随运动性言语失用和语法障碍。
FTD及其亚型的诊断仍然是临床的一大挑战。近期研究强调,FTD各亚型在临床症状或脑结构改变方面并不能清晰、互斥地分类。患者通常同时具有多个亚型的诊断特征,因为行为、运动和语言损伤往往跨越诊断边界相互重叠。这种亚型之间的界限模糊使诊断过程更加复杂,患者可能同时表现出符合多种FTD相关疾病的特征。结构磁共振成像(MRI)在临床实践中常用于FTD诊断确认。然而,传统MRI指标对早期疾病阶段的微妙神经元损失不够敏感,容易导致诊断延迟或错误。因此,研发能够在症状早期检测和诊断FTD的生物标志物对于优化患者护理和指导关键的临床试验具有重要意义。随着形态测量分析、多元统计和机器学习方法的发展,将MRI特征与这些技术结合以改善FTD的早期检测和诊断变得更加可行。
以往针对FTD的MRI研究主要集中在评估皮质厚度或基于体素的形态测量(VBM)的灰质萎缩程度。这些研究结果与尸检研究证据一致,表明额叶和颞叶皮质存在特定的群组水平萎缩模式。bvFTD与额岛皮质及基底节萎缩相关;svPPA与左侧颞叶前极及海马萎缩相关;而nfvPPA则以左侧额下回(特别是Broca区)萎缩最明显,若合并言语失用还累及运动区。近期研究表明,尽管个体间萎缩模式存在差异,但受萎缩影响的区域通常在功能上连接于与FTD各变异型典型相关的脑区以及特定症状网络。另一种评估萎缩模式的方法是基于变形的形态测量(DBM)。相较于VBM和皮质厚度估计方法,DBM具有明显优势。DBM不依赖自动组织分割,而是直接利用影像对比度捕捉组织变化,更敏感于微妙的差异,避免了组织分类错误导致的灰质体积误算。此外,DBM还能够评估白质和皮质下灰质的变化,因此在FTD的诊断及亚型分类中具备巨大潜力。然而,迄今仅有少数研究在FTD中使用DBM,这些研究总体上支持既往发现。值得注意的是,Cardenas等发现FTD患者不仅额叶、颞叶前部萎缩,还包括丘脑、脑桥和上下丘;Manera等强调bvFTD患者白质与皮质下结构(如丘脑、杏仁核及基底节)变化,并指出脑室扩张为常见特征。这些结果总体与其他MRI研究的结论一致,同时突出DBM在识别结构变化(尤其皮质下区域)中的优势。
以往结合结构MRI和机器学习自动分类FTD患者的研究,在区分患者与对照组时已取得较高的准确性(80–90%)。但很少实施多类别分类方法。由于二分类器需要排除除两个标签外的所有其他类别,多类别方法对临床实践更具价值。此外,FTD亚型形成连续谱系,很难通过二分类变量完全描述。因此,我们选择了多类别方法。鉴于FTD亚型在行为和神经退行性特征上的异质性,尽早准确识别特定FTD综合征对选择合适的治疗至关重要。虽然已有研究实现了较高的准确性,但只有少数研究对每种FTD亚型与所有其他类型(包括阿尔茨海默病患者)进行了分类。值得一提的是,Tahmasian等的研究在区分某一FTD亚型时实现了高特异性(97.5%与94.2%),但敏感性极低(50%与0%)。Kim等利用皮质厚度测量在层次分类框架中对FTD亚型进行分类,准确率达75.8%。因此,改进机器学习方法对于提高FTD亚型的早期检测十分重要。
本研究利用DBM测量的敏感性,捕捉脑萎缩模式与FTD临床测量之间的关系。分别在三种FTD表型(bvFTD、svPPA、nfvPPA)中建立脑萎缩与认知下降之间的关系模型,有望厘清FTD患者不同疾病领域及其与脑形态测量指标之间的联系。本研究使用多元方法,将FTD变异型的不同认知症状与全脑萎缩模式联系起来。我们分析了FTLDNI数据库136名被诊断为bvFTD、svPPA或nfvPPA患者的数据,使用DBM评估结构性脑改变,并结合偏最小二乘法(PLS)定量三种FTD亚型之间体积变化的程度和模式,识别最敏感于变化的皮质和皮质下结构。利用最大化解释FTD亚型间协方差的模式,我们成功预测了队列中患者的FTD亚型诊断。
基于以往神经影像和离体研究,我们预计额叶、颞叶皮质及皮质下结构均存在神经退行性改变。本研究的主要目的是增进对FTD疾病机制的理解,并在缺乏广泛临床检测条件下,提供包含影像学、临床及人口统计学数据的潜在生物标志物,以评估疾病严重程度并进行表型分类。
材料与方法
受试者
本研究的数据来自额颞叶退行性变神经影像学计划(Frontotemporal Lobar Degeneration Neuroimaging Initiative, FTLDNI)的参与者,这些参与者均具有T1加权磁共振影像(MRI)扫描数据。FTLDNI由美国国家老龄研究所资助,于2010年启动。FTLDNI的主要目标是确定用于追踪额颞叶退行性变的神经影像模式与分析方法,并评估影像学与其他生物标志物在诊断方面的价值。本研究共纳入136名FTLDNI参与者的基线与随访数据。数据于2023年7月通过LONI平台获取并下载。具体包括行为变异型FTD(bvFTD)患者70名(随访数据38名),语义型原发性进行性失语(svPPA)患者36名(随访数据24名),非流利型原发性进行性失语(nfvPPA)患者30名(随访数据15名)。纳入标准为根据FTD联盟(FTD consortium)标准诊断为可能或疑似FTD的患者。关于参与者和研究方案的最新信息请访问研究官网。所有参与者的诊断在基线和随访期间均保持稳定。所有受试者均签署知情同意书,本研究方案获得了各中心伦理委员会的批准。
临床评估
所有受试者在初次访问时均由研究点的研究人员进行临床评估(包括运动、非运动及神经心理表现)。神经心理学评估包括用于评估整体认知功能的简易精神状态检查(MMSE)和临床痴呆评定量表(CDR);用于评估言语记忆与学习能力的正向数字广度和加州语言学习测试(学习四轮后回忆正确项目数、30秒延迟后回忆正确项目数、10分钟延迟后回忆正确项目数及词汇再认);用于评估执行功能的修订版连线测验(用时与正确连线数)和逆向数字广度;以及用于评估语言能力的词语流畅性测验(音韵与语义)、波士顿命名测验(BNT)与皮博迪图片词汇测验。
结构MRI采集与处理
FTLDNI采用了阿尔茨海默病神经影像学计划(ADNI)建立的基础设施。所有参与影像中心共用统一平台。关于MRI采集参数和扫描仪的具体信息汇总在补充材料表1中。有关MRI采集方案和扫描仪的更多细节,请参阅https://cind.ucsf.edu/research/grants/frontotemporal-lobar-degeneration-neuroimaging-initiative-0。
每位参与者的T1加权影像数据均通过标准预处理流程,包括降噪、强度不均匀性校正和强度标准化至0–100的范围。预处理后的影像随后进行线性配准(共9个参数:3个平移、3个旋转和3个缩放参数)以及非线性配准至MNI-ICBM152-2009c标准模板。所有线性配准的质量均由一名经验丰富的评估员(作者M.D.)进行目视检查,评估员对诊断组别盲法。仅有7个扫描未通过质量控制,予以剔除。
DBM值
本研究的基于变形的形态测量(Deformation-based morphometry, DBM)分析使用MNI MINC工具完成。DBM的原理是通过非线性变换将每个个体扫描图像扭曲到共同模板,使个体影像(参与者的T1加权影像)与模板之间的局部形状差异编码在变形中。这种非线性变换的局部变形可以通过计算雅可比行列式(Jacobian determinant)估计组织的扩张或萎缩。局部收缩被解释为组织萎缩,而局部扩张通常与脑室或脑沟扩张有关。本研究采用DBM方法评估脑区体积变化,DBM数值基于CerebrA脑区分区图谱(共102个区域)计算。
统计分析
人口学与认知评分
所有统计分析使用MATLAB R2022a版本,图表使用R (v2024-08-01) 绘制。研究采用单因素方差分析(one-way ANOVA)比较基线时的人口学和认知变量,随后使用独立样本t检验并以Tukey的HSD方法进行多重比较校正。分类变量(如性别)采用χ²检验分析。所有结果以均值±标准差(中位数)表示,显著性水平设定为P<0.05。
PLS回归分析
本研究使用偏最小二乘法(partial least squares, PLS)分析来评估认知与脑萎缩模式之间的关系。PLS的分析目的是识别能够最佳共同协变的认知评分与萎缩模式组合。PLS是一种多变量技术,用于建立两个变量集合之间的关系。这种方法能识别具有高度协变关系的变量的加权线性组合。这些组合可以理解为萎缩网络及其相应的临床表现。
本研究采用Zeighami等描述的方法(图1)。认知数据和DBM数据分别用矩阵X和Y表示,其中矩阵X包含12个认知评分,矩阵Y基于CerebrA图谱包含102个脑区的脑部测量数据。矩阵数据经过z分数标准化后,计算其相关矩阵(X'Y),随后通过奇异值分解(SVD)进行分析。
图1. PLS分析流程图
将z标准化后的DBM数据和认知/人口统计数据合并为一个脑-认知协方差矩阵,然后对此矩阵进行奇异值分解(SVD),得到一系列相互正交的潜变量(LVs)。每个LV代表与临床特征相关联的脑萎缩模式,其对应的奇异值反映了萎缩与认知之间的协方差(详见Zeighami等54)。随后,我们使用线性回归模型分析FTD诊断组在每个LV的认知和萎缩特征上的差异。最后,我们将每位患者的脑与认知评分作为特征,输入机器学习分类器(采用集成判别学习器与bagging聚合方法),分别对基线与随访数据中的参与者进行FTD亚型预测。
bvFTD:行为变异型额颞叶痴呆;FTD:额颞叶痴呆;PLS:偏最小二乘法;nfvPPA:非流利型原发性进行性失语;svPPA:语义型原发性进行性失语。
分解过程产生了一系列相互正交的潜变量(Latent Variables, LVs),其中矩阵U和V分别由左右奇异向量构成,Δ则为包含奇异值的对角矩阵。每个LV所解释的协方差大小被用于衡量其效应量。
每个LV的统计学显著性通过置换检验(permutation tests)进行评估。具体做法是,将矩阵X的行进行随机置换(重复500次),重新计算认知-脑相关矩阵。这些经置换后的相关矩阵再次进行奇异值分解,以获得LV所解释协方差的零假设分布,进而用于计算P值。
单个变量对结果的贡献则通过自助抽样法(bootstrap resampling)进行评估(重复500次)。每个奇异向量内的单个权重都会获得一个抽样分布,由此计算出每个CerebrA脑区的「bootstrap比值(bootstrap ratio)」,即该区域的奇异向量权重与其通过自助抽样估计得到的标准误之比,用于识别对萎缩模式贡献显著的脑区。bootstrap比值图采用95%置信区间标准进行阈值处理。
为确保年龄、性别或教育程度未驱动患者脑结构特征与认知功能之间的关系,我们在去除年龄、性别和教育水平的影响后再次进行了分析(根据健康对照组的数据回归去除;对照组的人口学和临床特征见补充表2)。为此,我们将所有变量转化为w-分数。通过包含年龄、性别和教育水平的线性回归模型,对患者原始评分进行调整,使之相对对照组的均值和标准差进行标准化。这种校正后的人口统计调整分数(demographic-corrected scores)能更准确地评估患者的个体萎缩和认知特征。
FTD亚型之间的组别差异
为了评估数据驱动的PLS模式在不同FTD亚型之间的差异程度,我们计算了特异于每位患者的得分。具体而言,将LV(潜变量)得到的脑和认知模式投射到个体患者的数据中,为每位患者生成标量的萎缩得分(atrophy scores)和认知得分(cognitive scores)。这些得分类似于主成分得分或因子得分:
随后,我们使用以下线性回归模型评估三种FTD表型亚组之间萎缩得分与认知得分关系的差异:
该模型中,我们最关注的变量是交互项(brain score:variant),该项反映三种FTD亚型之间的斜率差异,代表了皮质萎缩对各诊断亚型患者认知表现的贡献程度。
模型的预测能力
分类分析
我们评估了PLS分析所识别出的萎缩与认知模式组合能否用作特征,以预测患者的FTD亚型。为此,我们使用了一种多类别机器学习集成分类器(ensemble classifier),该分类器采用判别学习器(discriminant learners)的集合方法(bagging聚合方法)。我们使用MATLAB R2022a版本中的fitcensemble函数创建了一个集成分类器,通过结合多个“学习器”(learners)来提升分类器的预测性能。通过训练多个弱分类器并聚合它们的预测结果,集成模型能够产生更稳健的分类效果。我们应用了bootstrap聚合方法,即通过有放回抽样将训练数据划分成多个子集,每个子集用于训练一个弱学习器,并最终以多数投票的类别作为最终预测结果。这种方法能减少预测的方差,降低过拟合风险。我们指定使用判别学习器,它们使用高斯分布(Gaussian distributions)对每个类别建模(代码见GitHub:https://github.com/ameliemetz/FTD_subtype_prediction)。
为评估分类器的性能,我们采用了10折交叉验证(cross-validation),在100个随机划分的训练和测试集上执行该流程。我们将PLS分析中识别的LV所对应的神经退行性和认知模式作为模型的训练特征,然后用该模型预测测试数据中患者的临床诊断(即FTD亚型)。模型的性能通过比较每次交叉验证预测的诊断组别与临床诊断(“金标准”)的一致性来评估,每次交叉验证折的预测准确性(均值±标准差)作为性能指标。我们还额外评估了该模型对每个FTD亚型的敏感性(sensitivity)与特异性(specificity)。需要说明的是,为避免亚型分类任务中的信息泄露(leakage),此前步骤(例如PLS分析)中未纳入FTD亚型诊断信息。
最小输入变量的分类分析
为确保诊断方法在临床实践中的可行性,尤其是考虑到神经心理测试所需的时间与资源,我们使用了耗时较短的最小变量组合,再次进行PLS分析和预测。具体而言,脑结构模式仅使用从T1加权MRI获取的DBM数值(约5–10分钟),认知评分仅使用临床痴呆评定量表(CDR,包括box score、语言得分与行为得分,总计约30分钟)以及波士顿命名测试(BNT,约5–15分钟)。完整神经心理评估组合需要超过2小时的时间,而这一最小化组合(仅CDR与BNT)则更便于临床应用且信息量仍然充足。
由于FTLDNI的两个研究中心存在部分认知测试缺失或未收集情况,包含所有认知变量的完整模型仅限于UCSF研究中心的参与者。然而,最小变量组合的模型允许纳入更多参与者的数据,包含了FTLDNI全部三个研究中心的数据。为评估不同研究中心数据变异性对分类模型性能的影响,我们也单独在UCSF中心的数据上重复了最小模型分析(此亚群的人口统计学与临床特征见补充表3)。
分类模型的验证
由于本模型包含了疾病严重程度指标,我们额外在一个疾病严重程度匹配(基于CDR评分,仅纳入CDR评分低于1.5的参与者)的样本中测试了模型预测准确性,以确保模型并非仅依赖疾病严重程度的群组差异来预测亚型。
此外,考虑到FTD亚型间显著的年龄差异(非流利型原发性进行性失语组平均年龄比其他组高出5–6.5岁),我们也在年龄匹配的FTLDNI队列子样本中评估了分类模型的表现(平均年龄:bvFTD组=65.4岁(SD=5.67);svPPA组=65.1岁(SD=6.12);nfvPPA组=65.8岁(SD=6.50)),以确保分类效果并非由年龄因素所驱动。
最后,我们通过将LV(潜变量)的脑与认知模式投射到纵向数据中,预测患者在随访时的FTD亚型诊断,验证了分类模型的稳定性。这一分析用于确认分类器性能的可靠性,即在同一患者不同时间点的观察中是否表现稳定。这相当于利用随访数据对模型进行内部验证。这一方法也能评估即使在疾病较晚期(可能存在更广泛的脑萎缩与认知功能损害)时,模型是否依然能够准确分类。使用前述的机器学习多类别集成分类器,我们以基线数据作为训练集,纵向数据作为测试集评估模型性能。需要说明的是,对纵向时间点的预测同样是在交叉验证的框架内进行的,且用于纵向预测的训练集中不包含同一患者的基线数据。我们根据基线数据对随访的测试分数与DBM数值进行标准化,即用随访值减去基线值的均值再除以基线值的标准差。这种处理确保了随访数据与基线数据(横断面数据集)的可比性。我们再次评估模型对患者FTD亚型诊断的预测准确性,以及敏感性与特异性。
纵向变化分析
为确定PLS分析所得出的脑与认知模式在纵向上的变化,我们使用配对t检验比较了具有基线与随访数据的每位患者(n = 32)的得分变化。此外,我们计算了每种FTD综合征患者在认知与脑结构得分方面的年变化速率,以研究临床症状与脑萎缩模式的进展速度是否在诊断亚组之间存在差异。随后,我们使用独立样本t检验比较了不同FTD亚型间的变化速率差异:
该分析分别针对每个LV的脑与认知得分进行。纵向测量时,我们为每位参与者选择了最接近基线访视后1年的随访时间点。基线与随访访视之间的平均时间间隔为1.03年(标准差=0.44),范围为0.40–3.57年。
结果
人口学与临床特征
表1比较了bvFTD、svPPA与nfvPPA患者基线时的人口统计学变量与认知测试得分。在年龄分布上观察到显著差异,其中nfvPPA组患者的平均年龄明显高于其他两个组(与bvFTD组比较:P < 0.001;与svPPA组比较:P < 0.007)。临床指标同样显示出了明显的组间差异(补充表4)。下文分析中仅纳入了认知与人口统计学数据无缺失的参与者(缺失值数量参见补充表5,各分析步骤中参与者人数流程图参见补充图1)。由于教育水平主要用作模型中的协变量,因此我们对缺失的教育值以相应诊断组的均值进行了插补。
表1 基线时FTD各亚型的人口统计学和认知特征
数值以均值(标准差)表示。星号代表基于单因素方差分析(one-way ANOVA)或χ²分析的显著组间差异。
bvFTD,行为变异型额颞叶痴呆;
nfvPPA,非流利型原发性进行性失语;
svPPA,语义型原发性进行性失语。
PLS分析结果
PLS分析在基线时发现了四个统计学显著的潜变量(LVs)(经置换检验P < 0.05),分别关联FTD患者的临床表现与相应脑萎缩模式。这些模式分别解释了临床与脑萎缩测量间协方差的44.16%、28.05%、8.02%与5.75%(总计85.98%)(图2)。
图2. 所有LVs解释的协方差及置换检验P值
最大模型的PLS分析包含了78名FTD患者。蓝色圆点表示每个LV所解释的认知与萎缩数据之间的协方差比例;橙色星号表示基于置换检验得到的各LV的P值。根据显著性水平(置换检验P < 0.05),选择LV-I(协方差解释率=44.16%,P < 0.001)、LV-II(28.05%,P < 0.001)、LV-III(8.02%,P < 0.05)与LV-IV(5.75%,P < 0.05)作进一步分析。
认知与脑萎缩模式
简言之,LV-I主要涉及命名障碍和言语学习/记忆技能,脑区则与颞叶及皮质下区域相关。LV-II涵盖了更广泛的认知特征,脑萎缩模式则涉及额叶与皮质下区域;LV-III与LV-IV则与行为表现及分布更广泛的脑萎缩网络有关(图3)。
图3. PLS分析得到的LV-I和LV-II。最大模型的PLS分析包含了78名FTD患者
(A) 脑结构模式的bootstrap比值,MNI空间的脑表面投影。图中仅显示经自助抽样法估计后显著贡献于LV的区域(P < 0.05),并根据置信区间进行阈值化处理。较冷色调代表萎缩,较暖色调代表扩张。
(B) 脑结构模式的bootstrap比值,MNI空间水平视图,显示皮质下结构与小脑。
(C) 人口学与认知测试评分模式。效应量估计值来自奇异值分解分析及其置信区间,显著性水平通过对78名参与者的bootstrap自助抽样法确定(P < 0.05)。BNT,波士顿命名测验;CDR,临床痴呆评定量表;CVLT,加州言语学习测验;LV,潜变量;MTMT,修订版连线测验;PPVT,皮博迪图片词汇测验。
第一个潜变量(LV-I)的认知特征(按贡献大小排序)包括:对抗性命名障碍(BNT、皮博迪图片词汇测验)、言语学习和记忆损伤(加州语言学习测验)。该LV对应的脑结构模式主要表现为颞叶和皮质下区域的萎缩,以及小脑体积增加(具体脑区和临床评分见补充表6和7)。
第二个潜变量(LV-II)的特征为较高的CDR总评分、年龄较大、较高的BNT分数、较低的MMSE分数和数字广度分数。对应的脑萎缩模式则以额叶和皮质下区域萎缩为主(补充表6和7)。
补充图2提供了一个例子,说明推测的脑网络与相关临床表型之间的关系。针对每个LV,我们通过将脑和认知模式投射到个体患者数据中,计算出特异于患者的分数(参见材料与方法部分)。这些标量数值(称为脑得分和认知得分)代表了个体的萎缩程度和认知受损水平。这类似于主成分或因子得分。
我们随后用患者的MMSE得分对各点(代表个体患者)进行着色,得分高的个体可能具有更严重的病理状态,这体现为更明显的萎缩模式与症状严重性。他们也在MMSE分数上表现出更明显的认知功能下降。
LV-III与LV-IV的脑结构与认知模式详见补充材料图3。
组别差异
图4展示了推测的脑萎缩网络及相应的认知模式在个体患者层面的关联情况,以及这种关联在不同FTD亚型之间的差异。这些测量虽基于总体人群,但通过对不同组别的比较,可以进一步深入了解疾病亚型的异质性及差异,揭示亚型间的模式表达关系及程度是否一致或存在明显差别。
图4. 个体患者脑与认知的PLS得分,以及FTD亚型间的差异
通过将每个LV的脑和认知模式分别投射(乘以)到每位患者的数据中,计算出个体的脑与认知得分。随后我们使用线性回归模型比较了不同FTD亚型脑和认知得分的关系。每个数据点代表一名患者(N = 78)。
(A) LV-I (调整后R² = 0.569, P < 0.001)。
(B) LV-II (调整后R² = 0.409, P < 0.001)。
bvFTD,行为变异型FTD(虚线);nfvPPA,非流利型原发性进行性失语(短划线);svPPA,语义型原发性进行性失语(实线)。
与bvFTD相比,在LV-I中,svPPA和nfvPPA亚型的脑与认知得分之间存在更强的关联(斜率更陡峭,图4A),尽管这一差异仅具有边缘统计学显著性(P ≈ 0.08,见表2)。在LV-II中,nfvPPA亚型与bvFTD亚型相比,有显著更高的截距(t统计量=2.57,P=0.01)与斜率(t统计量=2.19,P=0.03),说明nfvPPA在该潜变量上的认知表现更为明显,且相应的萎缩模式对认知表现有更强的影响;换句话说,LV-II更能反映nfvPPA亚型的特征。
表2 显示了使用线性回归模型确定的PLS模型对LV-I和LV-II不同FTD亚型预测的差异情况
所报告的P值均经过多重比较校正(采用控制假发现率的方法),显著性阈值设为0.05。截距或斜率差异显著的结果用星号(*)标出。
脑萎缩与临床模式的稳定性
为确保年龄、性别或教育水平并非患者MRI特征与认知功能关系的主要驱动因素,我们根据健康对照组数据,通过计算w分数并回归去除了年龄、性别和教育的效应后,再次重复了分析。结果显示,潜变量(LV)的数量、对应的认知模式以及FTD亚型间差异基本保持不变。这表明在FTD患者中观察到的结果确实反映了疾病相关过程,而非健康老化过程、性别差异或教育程度差异所致的认知功能变化。经过上述校正后,基于DBM的脑萎缩模式也基本保持稳定,具体见补充图4。
模型的预测能力
我们评估了PLS分析中LV所识别的神经退行性与认知模式组合,作为特征预测患者临床诊断的能力。我们应用了一种多类别的机器学习分类器,以10折交叉验证方式在100次随机划分的训练与测试集中进行分类预测。基于脑与认知分数(包括16项认知评分及年龄、教育和性别)所得的FTD亚型预测与临床医生的诊断进行比较,所得的三类别平均预测准确性为89.12%。三种FTD亚型的平均敏感性介于84.19%(nfvPPA)至93.56%(bvFTD),而特异性则介于91.46%(bvFTD)至97.15%(svPPA)之间(表3)。当我们仅将脑结构分数纳入模型时,准确性降低至69.76%;而仅使用完整临床评分进行预测时,准确性为86.05%。
表3 分类分析结果
BNT,波士顿命名测验;
bvFTD,行为变异型额颞叶痴呆;
CDR,临床痴呆评定量表;
nfvPPA,非流利型原发性进行性失语;
svPPA,语义型原发性进行性失语。
最小输入变量的分类分析
为评估本研究的模型是否适用于时间和资源有限的临床环境,我们在PLS与分类模型分析中仅纳入了CDR量表与BNT(补充图5)。即使只使用这些最小变量,我们的模型仍实现了较高的FTD亚型分类准确率(83.62%)。其中,神经退行性(MRI)与临床评估的组合尤为重要,因为仅基于认知评分的预测准确率只有76.38%。值得注意的是,将MRI测量数据加入到临床模型后,明显提高了对两种原发性进行性失语(PPA)亚型的敏感性,svPPA敏感性从70.19%提高到87.50%,而nfvPPA敏感性则从61.13%提高到76.17%。
当分类分析限定在UCSF研究中心的参与者中,以避免研究地点间变异的混杂效应时,最小模型的准确性提升至87.15%(脑+认知)和79.36%(仅认知)。UCSF站点的bvFTD患者在所有CDR子量表得分中明显更高(补充表3),显示出该站点bvFTD患者的疾病严重程度较其他两个站点更高。这表明各中心研究方案或参与者特征的差异可能影响模型表现。另外两个FTD亚型中,仅有2名svPPA患者来自UCSF以外的站点。
分类模型的验证
为确保模型预测并未仅依赖疾病严重程度,我们在症状严重程度匹配的亚样本(CDR < 1.5)中再次重复了所有分析。模型在严重程度匹配的样本中表现出相似的准确率(完整模型88.88%,最小模型81.54%;见补充表9),表明模型并未单纯利用症状严重程度差异来区分不同FTD亚型。同样地,在年龄匹配样本中的分类准确率为完整模型88.74%,最小模型83.74%,表明年龄差异也未驱动模型分类结果。
最后,我们将PLS模型的结果投射到纵向数据中进行组内验证(以纵向数据为测试集,受试者基线数据作为训练集),完整模型实现了88.09%的准确率,最小模型为85.77%,表明两个分类器均具有良好的可靠性。
脑萎缩与临床模式的纵向进展
在整个患者队列中脑与认知得分的纵向变化分析发现,所有四个潜变量的脑模式得分(脑萎缩程度)均随时间显著恶化(补充图6)。其中LV-I(P=0.007)、LV-II(P<0.001)、LV-III(P=0.003)和LV-IV(P=0.002)脑模式的变化均达到统计学显著。同时,LV-I(P=0.006)与LV-II(P=0.002)的认知模式评分也显著恶化(补充图6)。LV-IV的认知模式评分则略有升高(P=0.007)。如预期,由于基线与随访访视时间仅间隔约1年,因此观察到的变化相对较小。在亚型间的比较中,仅LV-I显示出了显著差异(图5):svPPA亚型患者认知评分的变化率明显高于bvFTD(t = -2.85, P < 0.01)和nfvPPA患者(t = -3.13, P < 0.006)。同样地,svPPA患者的脑结构评分变化率也显著高于nfvPPA患者(t = -3.30, P = 0.004)。
图5. 显示FTD三个亚型LV-I和LV-II的脑与认知模式得分的纵向变化速率箱线图
数据点为每位患者基线到一年后随访时得分的变化速率(N=32)。星号表示FTD亚型之间存在显著组间差异(采用独立样本t检验并通过Tukey校正多重比较后获得的结果)。
(A) 三种FTD亚型的认知评分年变化率(LV-I: svPPA对bvFTD:t=-2.85, P<0.01; svPPA对nfvPPA:t=-3.13, P<0.006)。
(B) 三种FTD亚型的脑结构评分年变化率(LV-I: svPPA与nfvPPA: t=-3.30, P=0.004)。
讨论
本研究通过单一的整合分析,将FTD三种核心亚型(行为变异型FTD、语义型原发性进行性失语和非流利型原发性进行性失语)的临床特征与相应的脑萎缩模式关联起来。在这三个患者群体中,除了年龄较高外,各种认知特征(包括整体认知功能、语言和执行功能)均与脑萎缩相关联。尽管萎缩模式广泛分布于皮质和皮质下结构,但萎缩与认知测量之间的协方差主要由额叶、颞叶和皮质下结构的变化所解释。研究同时发现了bvFTD、svPPA与nfvPPA亚型之间在萎缩与认知关系上的差异。通过将观察到的萎缩和认知模式用于预测模型,我们获得了很高的预测准确性(89.12%),三种FTD亚型分类的敏感性与特异性也较高(以临床医生的诊断为金标准)。即使在仅使用极少特征(DBM值、CDR评分与BNT得分)的情况下,模型表现依旧优于之前的自动诊断FTD的尝试,体现了明显的临床实用性。这种情形下,MRI特征显著提升了诊断准确率(从不使用MRI特征的76%提高到使用MRI特征的83%)。因此,DBM与多元统计方法的结合有望协助FTD患者的自动诊断与分类,特别适用于非专科门诊或缺乏专家和记忆门诊资源的医疗环境,以确保患者获得及时的初步治疗。
本研究的数据驱动式PLS结果与之前关于FTD神经病理变化的研究一致。PLS是一种多元统计方法,通过识别能够捕捉最大协方差的潜在成分来研究脑萎缩与认知表现之间的关系。该方法可理解为从数据驱动角度识别出与特定认知功能相关联的脑网络。在本研究中,PLS分析得到了四组脑萎缩模式及相应的认知表现模式。LV-I中的协方差部分可由颞叶萎缩来解释,尽管颞叶萎缩通常与svPPA相关,但一些研究表明它也可能在bvFTD中起作用,尤其是在伴随海马异常时,这一点也在LV-II中得以体现。这被解释为默认模式网络、边缘网络及突显网络的异常,导致情感和社会认知改变。此外,额叶萎缩(尤其在LV-II中)在FTD的行为和认知症状中发挥重要作用,包括执行功能、注意力和语言障碍。此外,本研究还发现脑岛结构变化在区分nfvPPA与svPPA方面发挥了重要作用。脑岛通过与额叶语言、运动与感觉区域的广泛联系,参与了语义、语法及音韵处理,并可能与nfvPPA的言语失用发展有关。LV-III中的萎缩模式主要由小脑结构变化所驱动,小脑萎缩已被证实与遗传性FTD行为损伤有关。皮质下萎缩近年来逐渐受到关注,本研究发现围绕脑室的显著萎缩区分了FTD亚型,并确认脑室扩张是bvFTD的常见特征和疾病进展的敏感标志物。此外,本研究还发现丘脑和杏仁核的萎缩可能早于皮质变化,这与已有研究一致,提示皮质下结构萎缩在FTD诊断和病理机制研究中具有潜力,也突出了DBM检测深层脑结构变化的优势。
为了验证PLS分析得到的脑和认知模式能否区分不同FTD综合征,我们使用机器学习自动分类,达到了89.12%的分类准确性,且在症状严重程度和年龄匹配的样本中验证了模型的稳健性。此外,利用纵向数据进行模型验证时,完整模型达到88.09%的准确性,最小模型达到85.77%,表明了模型可靠性。研究进一步表明,DBM测量与临床评分(尤其是仅需较短时间完成的CDR和BNT)相结合,即使输入变量极少,也能有效区分FTD亚型。
本研究的主要优势之一在于使用了经过广泛验证的多中心、多扫描仪数据处理流程,提供了稳健且敏感的DBM测量方法,并对所有处理步骤进行了质量控制。此外,本研究通过去除健康老化的效应验证了分析结果的可靠性。尤为重要的是,本研究实现了高达89%的FTD亚型分类准确性,即便仅使用两个简短的临床测试与脑萎缩指标亦表现良好。这凸显了DBM的敏感性,以及DBM结合多元统计方法在FTD诊断中的潜力,对提高患者早期管理和自动诊断水平至关重要。
局限性
尽管如此,本研究也存在一些局限性:
-
PLS分析虽能全面研究脑-认知关系,但无法明确特定临床表现与特定脑区的个体关系,这需后续研究进一步探讨。
-
研究样本相对较小,尤其是两种PPA亚型的患者数量有限,且缺乏一些重要的临床信息(如病程、诊断时间、合并症)。
-
bvFTD患者疾病严重程度明显高于其他亚型,这可能对分析结果产生影响。
-
部分认知领域(如复杂注意、语言理解与书写等)未被FTLDNI收集,限制了分析的广泛性。
-
未来研究应纳入更大规模、多元化的样本(包括遗传性亚型及不同教育和民族背景的患者),并通过组织病理学验证模型,以进一步确认其诊断效用和泛化能力。
结论
总的来说,本研究明确了DBM测量的神经退行性变与FTD核心亚型认知表现之间的稳健对应关系。DBM结合多元统计分析方法在FTD诊断及亚型分类中具有重要潜力,有望改善疾病的早期管理及自动化诊断水平。