摘要
本文提出了一种可用于训练情绪识别模型的fNIRS-EEG情感数据库——FEAD。研究共记录了37名被试的脑电活动和脑血流动力学反应,以及被试对24种情绪视听刺激的分类和维度评分。探讨了神经生理信号与主观评分之间的关系,并在前额叶皮层区域发现了显著的相关性。该数据库将公开提供,旨在鼓励研究人员开发更先进的情感计算和情绪识别算法。
引言
情绪是神经系统对某种刺激产生的一种短暂而强烈的反应。许多研究表明,大脑皮层和皮层下神经结构参与了情绪的调节和处理。因为神经系统在控制、反应和调节心理过程中发挥着重要作用,所以了解其功能有助于我们识别有效的情绪指标。我们的感觉受体检测到体内和外部环境的变化,并通过动作电位(信号)将这些变化传递到大脑神经系统的相关部分。感觉、思想和决策是这些感觉输入信息综合的结果。随后,神经系统通过向不同器官(如肌肉和腺体)发送信号,使人们能够对环境变化做出有意识或无意识的反应。这产生了三种主要的情绪测量途径:1)通过收集生理信号(如呼吸频率、心跳或神经电活动)来测量生物标志物;2)监测外部表现(如宏观/微观面部表情或肢体语言);3)主观评估(如自我报告测量)。
选择最能代表个体情感状态的一个或多个情绪指标,需要考虑人类情感的复杂性。尽管外部指标容易观察和获取,但包括社会义务和个人习惯在内的各种因素使得外部观察者很难理解与这些指标相关的情绪。另一方面,由于低信噪比、个体心理生理机制、性别以及心理和身体特征等因素,生理信号可能难以解释。然而,生物标志物不容易受到外部指标的限制,并且难以隐藏或伪装。此外,近年来的技术进步使得数据采集变得容易且成本低廉,从而使得生理信号能够可靠地用于检测人类情感。
在将人类情感映射到语义情感状态时,有两个广泛接受的框架:离散情绪理论和维度情绪理论。离散情绪理论认为,存在一组核心情感在人类中具有跨文化的可识别性。艾克曼提出的六种基本情绪,包括愤怒、厌恶、恐惧、快乐、悲伤和惊讶,是离散情绪理论中一个流行的模型。每种情绪状态都是独特且普遍的,具有特定的特征,使其能够清晰地界定并描述各种各样的情绪。然而,考虑到人类情绪的复杂性以及对基本情绪组成部分的不同看法,其他研究者提出了将情感状态映射到多维轴上的方法,这就是所谓的维度情绪理论。该理论有几种不同的模型。例如,PAD三维模型使用愉悦度、唤醒度和支配度来描述人类情感,其中愉悦度表示快乐或愉快的程度,唤醒度表示警觉水平,支配度表示对周围环境的影响感。另一个流行的维度模型是环形模型,它试图将情感映射到两个轴上:愉悦度和唤醒度。Plutchik(2003)提出的情绪轮结合了类别理论和维度理论。它将四种对立的主要情绪排列在一个同心圆上,这四种情绪分别是快乐、恐惧、悲伤和愤怒。在这里,本文使用了PAD维度模型和Plutchik情绪轮中的四种类别情绪来建立基础真值。
近年来,发布了许多情感基准数据库,这些数据库使用单个(单模态)或多种(多模态)情绪指标和一种或多种情绪理论。例如,柏林情绪语音数据库(Emo-DB)记录了10名演员(五名男性和五名女性)所说的535句话,目的是将他们的情感映射到六种情绪类别(快乐、愤怒、焦虑、恐惧、无聊和厌恶)。自发微表情(SMIC)和自发微面部动作(SAMM)数据集也是单模态数据库,其中记录了参与者的面部表情,并将其情绪转化为类别情绪。类似地,SEED数据集使用15名参与者的生理信号(EEG)来对他们的情绪进行分类。然而,人类心理状态、主观意识和无意识特征的复杂性,以及对全面理解人类情绪的需求促使研究人员开展了多模态情绪识别研究。AMIGOS数据集收集了40名个体的三种生理信号以及面部和身体的视频录制信息,以识别他们的细微情绪变化。DEAP、MAHNOB-HCI、RECOLA、DREAMER和DECAF也是多模态数据库,记录了参与者的眼动、面部视频、语音和生理信号(EEG、肌电图(EMG)、心电图(ECG)、皮肤电活动(EDA))。
鉴于大脑在处理和产生情绪反应方面发挥着核心作用,所以测量神经活动可以提供有关这一过程的宝贵见解,并有助于我们更好地理解情绪是如何表达的。EEG和fNIRS等技术成本相对较低,并且在收集大脑动态信息方面表现出色。一些早期研究强调了这些技术在混合设置中的互补性,特别是在测量神经血管耦合(脑血流量与神经活动之间的关系)的情感研究背景下。虽然有一些公开的fNIRS-EEG数据库,专注于运动想象、心理负荷和运动伪影分析,但据我们所知,目前只有一个公开可用的fNIRS-EEG数据库专注于情感识别。该数据集仅包含来自五名参与者的记录。因此,目前尚缺乏一个全面的、大规模的、包含fNIRS和EEG信号的情感数据库来进行情绪研究。
在这里中,本研究创建了fNIRS-EEG情感数据库(FEAD),同时记录了37名参与者对24种情感线索(视听刺激)做出反应时的EEG和fNIRS信号。这种双模态测量随后映射到维度情绪模型中,使用自我情绪评定量表(SAM)进行主观自评,涵盖效价、唤醒度和支配度,以及快乐、愤怒、恐惧和悲伤这四种离散情感。此外,FEAD数据库还包含了参与者对视频熟悉程度的回答、人口统计信息,以及积极与消极情绪量表(PANAS),该量表提供了参与者在实验前的情绪状态信息。本研究将这种混合设置作为测量情感生物标志物的系统,并展示了fNIRS和EEG作为单模态和双模态系统的初步维度情绪分类结果。
实验程序
刺激数据库
目前已有多种情感诱导范式,主要分为两类:内源性和外源性情感诱发。内源性方法要求被试回忆与特定情绪相关的记忆(这种记忆是不确定和不可控的)。外源性方法则通过外部刺激诱发被试的情感。由于研究人员能够控制提供给被试的刺激,因而外源性情感诱导范式在情绪识别研究中的应用更为广泛。
标准化情绪诱发工具包括各种刺激类型,如图像、音频、视频、语言、视频游戏和虚拟现实(VR)。每种刺激类型都有其优势和局限性,刺激类型的选择取决于具体的研究问题。在这里,本研究选择了视频刺激,因为它具有生态效度高、吸引注意力迅速、运动伪影小等优势,能够提供接近真实世界的体验。
使用以下标准从YouTube上收集了150个视频片段:
1、视频引发了一种情感。
2、视频上没有水印、标识或明显的广告,以消除偏见。
3、视频的内容应该足够清晰,以便参与者无需额外解释就能理解。
4、选择观看次数较少的视频,以最小化熟悉度等混淆效应。
5、视频长度足以追踪血流动力学反应,但不会影响情绪、诱发疲劳或增加认知负荷。
两位心理学家(1名男性和1名女性)审查了这些视频,并从中筛选出76段80秒长的视频片段,这些视频涵盖了广泛的场景(如人际互动、动物、自然、食物和喜剧)。
为了进一步验证这些视频在引发情感方面的有效性,本研究在Amazon Mechanical Turk(MTurk)上进行了一项调查。调查对象被要求观看76段视频,并就每个视频回答5个问题。第一个问题是关于被试对视频的熟悉程度,采用标准的5点Likert量表(1=完全不熟悉,5=非常熟悉)进行评定。接下来的三个问题采用标准的9点Likert量表(SAM量表),分别评估情绪的效价、唤醒度和支配度(VAD)。最后一个问题询问了Plutchik情绪轮中的主轴上的核心情绪。本研究的MTurk调查仅限于18岁以上的人,并且具备MTurk Master资格的人群。本研究在14天内收集了169份回复,其中106份是完整的。为了提高调查结果的可靠性,本研究删除了响应时间非常短的条目,以排除被试在未观看视频的情况下完成问卷的可能性。最终,共获得了73名被试(45名男性和28名女性)的数据,平均年龄µ=32.8岁,σ2=9.30。对这些被试的评分进行分析,以建立一个用于本研究的视频库。
根据MTurk调查结果和平均效价评分,视频被分为三类:积极、中性和消极。为了避免内容重复并确保涵盖多样化的唤醒度和支配度范围,两名研究人员从每组中挑选了八段视频。
采集设备和实验环境
先前的研究表明,实验环境不仅会对记录的数据产生显著影响,而且还会对被试的心理状态产生显著影响。因此,实验室设置保持简洁且无干扰(图1)。房间的光线被调暗,以防环境光对红外线产生不利影响。为了减少EEG信号中的运动伪影,研究人员为被试配备了舒适的可调节靠背椅。LG显示屏大小为59.5英寸,刷新率为50/60Hz,并且放置在一个舒适的距离,以便被试的视线能够集中在屏幕中央。所有量表均在9.7英寸的iPad上完成。
图1.实验环境。
本研究使用g.Nautilus Research硬件同时收集了EEG和fNIRS数据。g.Nautilus是一款无线电池供电的EEG设备,配备有16个湿电极以及一个参考电极和一个接地电极。g.SENSOR 8 fNIRS通道附加装置由8个发射器和2个接收器组成,通过磁性支架固定在脑电帽上。该装置符合标准的10/20布局系统,同时支持fNIRS探头附加装置和灵活的EEG电极放置。EEG信号的采样率为500Hz,灵敏度为±187.5mV,并使用50Hz的陷波滤波器进行记录。应用0.01-100Hz的带通滤波器。fNIRS信号的采样率为10Hz,每个发射器和接收器之间的距离为30mm。采用波长为785nm和850nm的红外光来测量脑血流中血红蛋白分子的光吸收变化情况。所有被试的差分路径长度因子(DPF)为6。
本研究监测了以下脑区:内侧前额叶皮层(mPFC)、背外侧前额叶皮层(DLPFC)、顶下小叶、额极、辅助运动皮层、颞上回和布罗卡区。图2显示了EEG电极和fNIRS探头的位置,并使用国际10/5系统大致标定了其他位置。fNIRS发射器的近似位置为AF4h、AF3h、F8h、F7h、AFF10h、AFF9h、NFp2和NFp1;接收器的位置为AF7h和AF8h。EEG电极的位置为FC3、FC4、FC5、FC6、CP3、CP4、T7、T8、F7、F8、AF5、AF6、F1、F2、FPz和AFz。
图2.EEG电极(黑色)和fNIRS探头(蓝色)的位置。
参与者
共有37名被试(17名女性和20名男性)参与了本次实验,年龄范围为22-44岁(µ=28.97,σ2=5.73)。所有被试视力正常或矫正至正常,并且没有诊断出任何神经或心理疾病,如双相障碍或抑郁症。要求被试在实验开始前两小时内避免进食和饮用含咖啡因的茶或咖啡。本研究在奥克兰生物工程研究所进行,并获得了奥克兰大学人类参与者伦理委员会(UAHPEC)的批准。数据经过匿名处理,以便公开访问。
实验协议
每个被试在实验开始时都参观了一下实验室,以便熟悉环境,研究人员对这些设备进行了简要介绍,以减轻焦虑和减少额外变量带来的影响。接下来是对实验过程的介绍和对研究量表的解释。在签署知情同意书后,让被试完成一份研究前的调查问卷,包括人口统计问题(年龄、性别、惯用手和语言)以及一份标准的PANAS量表。PANAS是一份包含20个项目的自评量表,采用5分制来测量积极和消极情绪。这份量表用于在研究开始前评估被试的总体情绪状态。
为了减少被试头发密度和颜色对红外光传输及EEG信号的影响,本研究使用梳子分开头发,并将电极固定到头皮上之前清理额头上的头发。为了确保音频的清晰度并确保被试与外部环境隔离,实验前准备好耳机,并根据每个被试的需要调节合适的音量。
实验包括三个阶段,每个阶段包含八个试次(图3)。然后将选取的24段视频伪随机分为三个实验子集。每个积极或消极的视频之后都会呈现一个中性视频。在每个试次中,被试观看一段80s的视频,然后有35s的时间来评估自己的情绪,接下来注视屏幕中央,深呼吸5s,为下一个试次做准备。为了防止疲劳和困倦,每个阶段之间有两到三分钟的休息时间。每个视频结束后,被试需要回答五个问题:(I)你对这个视频熟悉吗?使用5点Likert量表(1:完全不熟悉;5:非常熟悉)进行评估;(II)至(IV)是9点SAM量表中的问题(图4);(V)用一个词描述你的感受(快乐、悲伤、恐惧、愤怒)。实验细节如表1所示。
图3.实验协议。
图4.使用SAM对效价、唤醒度和支配度进行主观情绪评估。
表1.实验信息小结。
主观评定分析
如前所述,本研究将收集的视频分为三类(消极、积极和中性),以引发广泛的情绪。图5显示了37名被试对每类选定刺激的平均效价评分。通过Wilcoxon符号秩检验发现,消极刺激与中性刺激之间的效价评分存在显著差异(p<0.001),同样,中性刺激与积极刺激之间也存在显著差异(p<0.001)。
图5.消极、积极和中性视频的效价评定。
在整个数据集中,效价、唤醒度和支配度的平均评分分别为5.35(±2.74)、5.06(±2.28)和5.16(±2.35)。图7展示了每种情感状态在每个阶段中的广泛覆盖情况。此外,根据Wilcoxon符号秩检验,mTurk调查对象与实验被试在效价、唤醒度和支配度上的评分差异没有统计显著性(因为所有维度的p>0.05)(图6)。这意味着两组被试对选定刺激的反应相似。
图6.比较mTurk调查对象和实验被试的评分范围。
图7.每个阶段的效价、唤醒度和支配度的平均评分。
为了检查潜在的混淆效应或疲劳迹象,本研究探索了被试者评分的平均相关性(表2)。研究结果发现,熟悉度与效价之间存在中等正相关,熟悉度与支配度之间存在弱正相关。虽然没有暗示因果关系,但人们对更熟悉的视频往往有更积极的感觉。此外,效价与支配度之间存在显著正相关,而效价与唤醒度之间则存在负相关。但这些相关性较弱,表明被试在评分过程中能够清晰地理解和区分不同的量表。刺激顺序与效价、唤醒度或支配度评分没有显著关系,这表明习惯化或疲劳效应的影响很小。
表2.熟悉度、效价、唤醒度、支配度和呈现顺序之间的主观评分的平均相关性。*表示p<0.05。
联合分析
数据预处理
各种噪声源可能会干扰EEG和fNIRS信号,使数据解释复杂化。许多在EEG信号中观察到的伪迹,如出汗、慢漂移、眨眼和眼球运动,主要出现在低频范围(<4Hz),而其他伪迹,如咬紧牙关和肌肉运动,则发生在较高且更宽的频率范围内。虽然fNIRS信号相较于EEG信号对运动伪迹更具稳健性,但它们仍可能会受到仪器噪声(>3Hz)、梅耶波(0.1Hz)、呼吸(0.2-0.5Hz)、心率(1-1.5Hz)以及血压波动的干扰。
为了降低计算成本,将信号降采样至250Hz。采用三阶巴特沃斯滤波器进行滤波,其中EEG的滤波范围为[4-80]Hz,fNIRS的滤波范围为[0.0125-0.7]Hz,以去除上述噪声。每个刺激前5s静息阶段的最后两秒作为基线,80s的视频用于情绪状态分析。众所周知,不同的基线校正方法可能会导致不同的结果。在这里,本研究使用基线的均值和标准差来对实验数据进行归一化处理。
由于大脑动态的复杂性和非平稳性,选择特定的特征来表示生理信号可能具有挑战性,并进而影响数据的解释。时域、频域和空间域中都有许多特征,每种特征都有其优点。本研究使用频带功率(BP)和差分熵(DE)来表示模态的频谱特征和非线性动态特征,这两种方法在情感识别系统中都是有效的。此外,本研究还提取了fNIRS数据的均值,以提供对血管动力学的额外视角。为了估计BP,本研究采用Welch方法(窗口大小为4s),并计算了功率谱密度(PSD)在感兴趣频段范围内的面积。
神经血管数据和评分的相关性
为了确定EEG和fNIRS数据是否与主观评分相关,本研究对每个试次的中间40s进行了相关性分析。使用BP来评估两种模态的相关性,以提供直接比较。此外,还评估了HbO和HbR与被试评分的相关性。本研究计算了每种信号类型的频率功率与主观评分之间的Spearman相关系数,并计算了37名被试的p值,假设数据之间是独立的。然后,使用Fisher方法将每种信号类型和每个通道的37个Spearman p值合并为一个p值。显著性水平为p<0.05。结果如表3所示。可以观察到,在所有情绪状态维度中,始终显著的通道大多位于前额叶(AF5、AFz、F1、Fpz)和颞叶(T7、T8)。这一结果与之前使用EEG进行情绪识别的研究类似。
表3.fNIRS光极和EEG电极的平均相关性(p<0.05)。(∗=p<0.01,∗∗=p<0.001)。
本研究观察到效价与所有频段的EEG信号之间存在强相关性。中央(CP3)区域的α频段功率随效价评分的增加而增加。唤醒度与EEG信号在所有频段之间都显著相关。特别是,本研究发现唤醒度与PFC区域的θ频段和α频段功率之间存在显著负相关。关于支配度,本研究结果表明右半球发挥了更实质性的作用,这在F2、FC6和T8区域的显著电极中得到了体现。
fNIRS特征在三个维度上的分析结果揭示了氧合和脱氧信号之间存在显著相关性。这一发现与Bandara等人(2018)的研究一致,即除氧合信号外,脱氧信号在区分效价和唤醒方面也起着至关重要的作用。本研究结果显示,fNIRS信号与效价评分的相关性最强。具体而言,积极刺激引发了PFC区域AFF10h氧合信号的频带功率增加,同时导致F8h、AF4h和F7h区域脱氧信号的频带功率下降。此外,NFp1和AF3h通道的脱氧水平与效价呈现显著的正相关(p<0.01)。关于唤醒度,可以观察到AFF10h位置的频带功率和氧合信号都有所增加。而在支配度方面,NFp1通道的平均脱氧水平下降。
结论
本研究提出了fNIRS-EEG情感数据库(FEAD),该数据库包含37名被试的神经血流动力学数据以及对24个情绪视频刺激的情感状态评分。本研究使用便携式设备来记录EEG和fNIRS信号,这种方法为情感计算技术和算法在各种应用中的整合提供了契机,并且研究结果很好地揭示了EEG和fNIRS信号对情绪维度的敏感性。希望未来的研究能够利用该数据库进行探索并开发新的数据分析方法。
参考文献:A. F. Nia, V. Tang, V. Malyshau, A. Barde, G. M. Talou and M. Billinghurst, “FEAD: Introduction to the fNIRS-EEG Affective Database - Video Stimuli,” in IEEE Transactions on Affective Computing, doi: 10.1109/TAFFC.2024.3407380.