abstract
在视听情感识别(AVER)中,捕捉视频和音频模态之间复杂的时间关系是至关重要的。然而,现有的方法缺乏对局部细节的关注,如视频帧之间的面部状态变化,这会降低特征的可区分性,从而降低识别准确率。
为此,本文提出了一种用于AVER的细节增强的模态内和模态间交互网络(DE-III)。我们引入光流信息,以丰富视频表示的纹理细节,更好地捕捉面部状态的变化。融合模块将光流估计与对应的视频帧相结合以增强面部纹理变化的表示。我们还设计了模态内和模态间特征增强模块,以进一步提高视频和音频表示的丰富性和可区分性。在3个基准数据集上的实验结果表明,无论是在具体情感识别还是连续情感识别方面,本文提出的模型都优于所有现有的情感识别方法。为鼓励进一步研究并确保可复制性,我们将在接受后发布完整代码。
intro
情感感知由于其广泛的应用而吸引了越来越多的研究关注,例如情感计算[32],人机交互[3]和社交机器人[34]。多模态情感识别,特别是集成音频和视频(即AVER),尤其重要,因为它利用了对人类交流至关重要的两种模态中存在的信息。与单模态情感识别不同,多模态情感识别可以从不同的模态获得对同一情感的不同表征