AI在医学领域：通过声纹特征来预测血糖水平

糖尿病代谢紊乱（DM）是一种以血糖水平异常为特征的代谢性疾病，其表现为高血糖（≥230 mg/dL）或低血糖（<65 mg/dL）。该病导致胰岛素产生或作用受损，胰岛素作为调节葡萄糖稳态的关键激素。长期糖尿病与多种慢性并发症相关，包括心血管疾病、肾病、中风、视力丧失及神经损害。全球糖尿病患病率持续上升，预计到2045年，18至99岁的人群中将有近7亿患者。中国是全球糖尿病患者人数最多的国家，中国的糖尿病患者人数约为1.5亿。糖尿病对患者、医疗服务提供者及雇主造成了巨大的经济负担，包括直接治疗费用和生产力损失、工资减少相关的间接成本。

有效的糖尿病管理需要频繁监测血糖水平，自我监测血糖（SMBG）是目前最准确的血糖测量方法，采用指尖采血技术。然而，这种方法可能令人不适、不便且存在感染风险，因此具有侵入性。

为了克服这些挑战，过去十年中已经开发了几种连续且非侵入性的血糖监测方法。连续血糖监测（CGM）技术已成为改善糖尿病护理的尖端解决方案。与SMBG提供单一读数不同，CGM提供半连续的血糖水平信息，通过专用算法从组织间液葡萄糖水平推断血糖浓度。尽管CGM具有优势，但仍存在局限性，如成本、准确性、半侵入性质及定期校准需求。

本文提出了一个创新的方法，即利用语音分析来预测血糖水平。血糖水平的波动会影响声带和喉部软组织的弹性，进而影响声音的物理特性。通过分析语音信号的变化，可以建立与血糖水平之间的相关性。

1 材料及方法

1.1 数据收集及分类

参与者招募：共招募了 49 名志愿者，包括 6 名 1 型糖尿病患者。参与者年龄在 18-99 岁之间，其中 30 名男性，19 名女性。
排除标准：排除患有影响文本可读性的疾病（如呼吸系统疾病、恶性肿瘤、发热、吸烟习惯或最近接种疫苗）、声音质量受影响的疾病以及无法提供知情同意或发音障碍的个体。
数据收集方法：每位参与者提供至少一次，最多两次数据，分别对应高血糖和低血糖水平。血糖水平低于 100 mg/dL 的参与者将接受葡萄糖耐量测试，以将血糖水平提升至 100 mg/dL 以上。使用血糖仪测量参与者血糖水平，并记录语音样本。
将收集到的70个语音样本数据集划分为训练集和测试集，比例为7:3。
训练集用于训练模型，测试集用于评估模型性能。

1.2 CAPE-V 协议和语音录音

本研究采用 CAPE-V 协议收集语音样本。CAPE-V 协议是一种用于听觉感知声音评估的临床工具，旨在识别与声音问题相关的听觉感知特征。使用手机进行录音，手机距离参与者嘴巴 20-30 厘米，并在安静的环境中录制，以减少背景噪音干扰。参与者按照 CAPE-V 协议进行语音样本录制，包括：

阅读六句不同语音环境的句子。
发出持续 5 秒的元音 “a”。
发出持续 5 秒的元音 “i”。
进行至少两分钟的对话，回答至少两个日常问题。

1.3 数据预处理

1.3.1 特征提取

使用 Python 中的 Disvoice 库从语音样本中提取声学特征，包括：

声门特征	发声特征	韵律特征
GCI (声门关闭实例之间的时间变化)	F0 (声音信号中音调变化的速率)	GCI (声门关闭实例之间的时间变化)
F0 (基频，声音信号的音高)	F0' (音调变化速率的速率)	F0 (音高，声音信号的基频)
Tilt of linear estimation of F0 (每个有声段F0线性估计的倾斜度)	Average of OQ (OQ的平均值，连续声门周期的开口商)	Mean opening quotient (OQ的平均值，表示开口阶段持续时间与总周期持续时间的比率)
Average of HRF (HRF的平均值，谐波丰富度因子)	Energy on the first segment (第一个段落的能量，声音部分发声部分的初始强度或响度)	F0-contour (F0轮廓，捕捉随时间变化的音调波动)
Variability of OQ (OQ的变化，连续声门周期开口商的变化)	Jitter (抖动，声音中连续音调周期之间的时间不规则性)	Tilt of linear estimation of F0 (每个有声段F0线性估计的倾斜度)
GCI (声门关闭实例之间的时间变化)	Shimmer (闪烁，声音信号中连续音调周期幅度的变化)	Average of NAQ (NAQ的平均值，连续声门周期的归一化幅度商)
F'0 (声音信号中音调变化的速率)	Energy on last segment (最后一个段落的能量，有声语音段落结束时的响度水平)	Voiced rate (有声率，每秒有声段的频率)

声门特征：从持续元音中提取，包括平均谐波丰富度因子 (HRF) 等 9 个描述符。
发声特征：从所有语音片段中提取，包括抖动、 shimmer 等七个描述符。
韵律特征：从对话语音片段中提取，包括 F0 轮廓参数等 103 个描述符。

1.3.2 特征选择

计算每个声学特征的平均值、标准差、最大值、最小值、偏度和峰度。
通过相关系数筛选与目标变量相关性较高的特征，最终保留 124 个特征。
使用主成分分析 (PCA) 将特征维度从 124 降至 8 个主成分，以减少过拟合风险并提高模型解释性。

2 模型开发和训练

2.1 模型选择

选择逻辑回归 (LR) 模型进行血糖水平分类，因为它是二分类问题的常用模型。使用 L1 正则化 (Lasso) 和 L2 正则化 (Ridge) 防止模型过拟合。

LR 是一种基于概率的统计学习方法，适用于二分类问题，例如糖尿病诊断或患者风险预测。

LR 模型首先将输入特征进行线性组合，并引入一个截距项，得到一个称为 “z” 的数值。
然后，LR 模型使用逻辑函数（也称为 sigmoid 函数）将 “z” 值转换为概率值，表示样本属于正类（血糖水平 > 100 mg/dL）的概率。
最后，LR 模型根据预设的阈值（通常为 0.5）将概率值转换为类别标签，即高血糖或低血糖。

2.2 模型训练

使用网格搜索 (GridSearchCV) 确定 LR 模型的最佳超参数，包括正则化强度、正则化类型和优化算法。
选择的最佳超参数为：C=0.9, penalty=“L1”, solver=“liblinear”。

2.3 模型评估

使用准确率、精确率、召回率和 F1 分数评估模型性能，并绘制混淆矩阵。

3 结果

3.1 模型表现

准确率: 无论是训练集还是测试集，模型的准确率都保持在 85% 以上，甚至在交叉验证中略有提升，达到 86.5%。这表明模型具有较高的预测能力，能够有效区分高血糖和低血糖。
混淆矩阵: 从混淆矩阵中可以看出，模型在识别高血糖方面表现较好，准确率达到 95%，而低血糖的识别准确率为 71%。这意味着模型更擅长识别高血糖，但也需要进一步优化以提高对低血糖的识别能力。
F1 分数: F1 分数综合考虑了准确率和召回率，可以更全面地评估模型性能。模型的 F1 分数在训练集和测试集中都保持在 90% 左右，这表明模型具有较高的整体性能。

3.2 语音特征与血糖水平的相关性

声学预测指标: 本文提出了一种名为“声学预测指标”的无量纲指标，它由 8 个主成分组成，能够有效区分高血糖和低血糖。这与相关研究一致，表明语音特征与血糖水平之间存在显著的相关性。
颤动: 研究发现，颤动与血糖水平的相关性最强。颤动是指声音基频（音高）的周期性变化，它是衡量声带振动稳定性的指标。血糖水平的波动会影响声带的弹性，从而导致颤动增加。因此，颤动可以作为预测血糖水平的有效指标。