【论文阅读】Looking to Listen at the Cocktail Party:一种与说话人无关的语音分离视听模型

Looking to Listen at the Cocktail Party:A Speaker-Independent Audio-Visual Model for Speech Separation

原文链接：Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation

目录

原文

1.引言

2.相关工作

3.AVSPEECH数据集

4.视听语音分离模型

视频和音频表示

网络架构

实现细节

5.实验和结果

合成混合物的定量分析

真实世界的语音分离

视听语音分离与增强的比较

应用于视频转录

额外分析

6.结论

原文

Fig. 1.我们提出了一个分离和增强视频中期望发言者语音的模型。(a)输入是一个或多个人讲话的视频（帧+音频轨道），其中感兴趣的语音受到其他讲话者和/或背景噪声的干扰。(b)提取音频和视觉特征并将其馈送到联合音频-视觉语音分离模型。输出是将输入音频轨道分解为干净的语音轨道，在视频（c）中检测到的每个人一个。这使得我们可以合成视频，其中特定人物的语音被增强，而所有其他声音被抑制。我们的模型是使用来自我们的新数据集AVSpeech的数千小时视频片段训练的。“站立”视频（a）由Coco团队提供。

我们提出了一个联合视听模型，用于从混合的声音（如其他说话者和背景噪声）中分离出单个语音信号。仅使用音频作为输入来解决此任务极具挑战性，并且无法提供分离的语音信号与视频中发言者的关联。在本文中，我们提出了一个基于深度网络的模型，该模型结合了视觉和听觉信号来解决这一任务。视觉特征用于将音频“聚焦”在场景中的期望发言者上，并提高语音分离质量。为了训练我们的联合视听模型，我们引入了AVSpeech，这是一个由来自Web的数千小时视频片段组成的新数据集。我们证明了我们的方法的适用性，经典的语音分离任务，以及现实世界中的场景，涉及激烈的采访，嘈杂的酒吧，尖叫的孩子，只需要用户指定的人的脸在视频中的讲话，他们要隔离。我们的方法在混合语音的情况下，比最先进的纯音频语音分离具有明显的优势。此外，我们的模型，这是说话人无关的（训练一次，适用于任何说话人），比最近的依赖于说话者的视听语音分离方法（需要为每个感兴趣的说话者训练单独的模型）产生更好的结果。

其他关键词和短语：视听，源分离，语音增强，深度学习，CNN，BLSTM

1.引言

在嘈杂的环境中，人类能够将听觉注意力集中在单一声源上，同时弱化（“静音”）所有其他声音和声音。神经系统实现这一壮举的方式被称为鸡尾酒会效应[Cherry 1953]，目前尚不清楚。然而，研究表明，观看说话者的面部可以增强一个人在嘈杂环境中解决感知模糊的能力[Golumbic et al. 2013; Ma et al. 2009]。在本文中，我们实现这种能力的计算。

自动语音分离-将输入音频信号分离成其单独的语音源-在音频处理文献中得到了充分的研究。由于这个问题本质上是不适定的，因此需要先验知识或特殊的麦克风配置才能获得合理的解决方案[McDermott 2009]。此外，纯音频语音分离的一个基本问题是标签置换问题[Hershey et al. 2016]：没有简单的方法将每个分离的音频源与其在视频中的对应说话人相关联[Hershey et al. 2016; Yu et al. 2017]。

在这项工作中，我们提出了一种联合视听方法，用于将音频“聚焦”在视频中的所需说话者上。然后，输入视频可以被重组，从而增强特定人物对应的音频，同时抑制所有其他声音（图1）。更具体地说，我们设计并训练了一个基于神经网络的模型，该模型将记录的声音混合，沿着视频中每帧中检测到的人脸的紧密作物作为输入，并将混合物分为每个检测到的说话者的单独音频流。该模型使用视觉信息作为改善源分离质量（与仅音频结果相比）以及将分离的语音轨道与视频中的可见说话者相关联的手段。用户所需要做的就是指定他们想要从视频中听到语音的人的哪些面孔。

为了训练我们的模型，我们从YouTube上收集了29万个高质量的讲座、TED演讲和操作视频，然后从这些视频中自动提取了大约4700个小时的视频片段，其中有可视的说话者和没有干扰声音的清晰演讲（图2）。我们将新的数据集称为AVSpeech。有了这个数据集，我们生成了一个“合成鸡尾酒会”的训练集--人脸视频与干净语音、其他语音音轨和背景噪音的混合物。

我们从两个方面证明了我们的方法相对于最近的语音分离方法的优点。首先，我们展示了上级的结果相比，一个国家的最先进的纯语音混合的音频方法。其次，我们展示了我们的模型在真实场景中从包含重叠语音和背景噪声的混合物中产生增强的声音流的能力。

总而言之，我们的论文有两个主要贡献：（a）提出了一种视听语音分离模型，该模型在经典的语音分离任务中的性能优于纯音频模型和视听模型，并适用于具有挑战性的自然场景。据我们所知，我们的论文是第一个提出了一个独立于说话人的视听模型的语音分离。(b)一个新的、大规模的视听数据集AVSpeech，经过精心收集和处理，由视频片段组成，其中可听声音属于单个人，在视频中可见，没有音频背景干扰。该数据集使我们能够在语音分离方面获得最新的结果，并可能对研究团体的进一步研究有用。我们的数据集、输入和输出视频以及其他补充材料均可在项目网页http://looking-to-listen.github.io/上找到。

2.相关工作

我们简要回顾了语音分离和视听信号处理领域的相关工作。

语音分离。语音分离是音频处理中的基本问题之一，在过去的几十年里研究一直是人们广泛关注的课题。Wang和Chen [2017]全面概述了最近基于深度学习的纯音频方法，这些方法可以解决语音去噪[Erdogan et al. 2015; Weninger et al. 2015]和语音分离任务。

最近的两个作品已经出现，解决了上述标签置换问题，执行说话者独立，多说话者分离的单通道的情况下。Hershey et al. [2016]提出了一种称为深度聚类的方法，其中使用区分训练的语音嵌入来聚类和分离不同的源。Hershey等人[2016]还引入了无置换或置换不变损失函数的想法，但他们没有发现它工作得很好。Isik等人[2016]和Yu等人[2017]随后介绍了成功使用置换不变损失函数来训练DNN的方法。

我们的方法的优势，这样的音频只的方法是三方面的：首先，我们表明，我们的视听模型的分离结果是更高的质量比那些国家的最先进的spirited音频只模型。其次，我们的方法在多个说话者与背景噪声混合的情况下表现良好，据我们所知，没有一种仅音频的方法可以令人满意地解决这个问题。第三，我们共同解决了两个语音处理问题：语音分离，以及将语音信号分配到其相应的面部，到目前为止，这些问题已经分别解决[Hoover et al. 2017; Hu et al. 2015; Monaci 2011]。

视觉与言语越来越多的人对使用神经网络进行听觉和视觉信号的多模态融合来解决各种与语音相关的问题感兴趣。其中包括视听语音识别[Feng等人，2017; Mroueh等人，2015; Ngiam等人，2011]，从无声视频中预测语音或文本（唇读）[Chung等人，2016; Ephrat等人，2017]，以及从视觉和语音信号中进行语言的无监督学习[Harwath等人，2016]。这些方法利用同时记录的视觉和听觉信号之间的自然同步。

视听（AV）方法也已用于语音分离和增强[Hershey et al. 2004; Hershey and凯西2002; Khan 2016; Rivet et al. 2014]。Casanovas等人。[2010]使用稀疏表示执行AV源分离，由于依赖于单独活动的区域来学习源特征，并且假设所有音频源都在屏幕上可见，因此这是有限的。最近的方法使用神经网络来执行任务。Hou et al. [2018]提出了一种基于CNN的多任务模型，该模型输出去噪语音频谱图以及输入嘴部区域的重建。Gabbay等人[2017]在视频上训练语音增强模型，其中目标说话者的其他语音样本用作背景噪声，他们称之为“噪声不变训练”。在并行工作中，Gabbay等人。[2018]使用视频到声音合成方法来过滤嘈杂的音频。

这些AV语音分离方法的主要限制在于它们是说话者相关的，这意味着必须为每个说话者单独地训练专用模型。虽然这些研究做出了特定的设计选择，将其适用性仅限于说话人相关的情况，但我们推测，迄今为止，与说话人无关的AV模型尚未得到广泛应用的主要原因是缺乏足够大且多样化的数据集来训练此类模型--像我们在本研究中构建并提供的数据集。据我们所知，我们的论文是第一个解决说话人无关的AV语音分离的问题。

见图2。AVSpeech数据集：我们首先收集了29万个高质量的在线公开演讲视频（a）。从这些视频中，我们提取了语音清晰的片段（例如，没有混合音乐、观众声音或其他讲话者），并且讲话者在帧中可见（有关处理的详细信息，请参见第3节和图3）。这导致了4700小时的视频剪辑，每个视频剪辑都是一个人在没有背景干扰的情况下进行的。这些数据涵盖了各种各样的人、语言和面部姿势，分布情况如图（c）所示（年龄和头部角度由自动分类器估计;语言基于YouTube元数据）。有关我们数据集中视频源的详细列表，请参阅项目网页。

我们的模型能够分离和增强以前从未见过的说话者，使用不属于训练集的语言。此外，我们的工作是独一无二的，因为我们在真实的世界的例子，在以前的音频和视听语音分离工作没有解决的设置，显示高质量的语音分离。

最近出现了一些独立和并行的工作，这些工作解决了使用深度神经网络进行视听声源分离的问题。[Owens and Efros 2018]训练一个网络来预测音频和视频流是否在时间上对齐。然后，从该自监督模型中提取的学习特征用于调节开/关屏幕说话者源分离模型。Afouras等人。[2018]通过使用网络来预测去噪语音频谱图的幅度和相位来进行语音增强。Zhao et al. [2018]和Gao et al. [2018]解决了分离多个屏幕对象（例如乐器）的声音的密切相关问题。

视听数据集。大多数现有的AV数据集包括仅具有少量主题的视频，说出来自有限词汇表的单词。例如，CUAVE数据集[Patterson et al. 2002]包含36名受试者，每个受试者将0 - 9中的每个数字说5次，每个数字总共有180个示例。另一个例子是Hou et al. [2018]介绍的普通话句子数据集，其中包含了一个母语者所说的320个普通话句子的视频记录。每个句子包含10个音素平均分布的汉字。TCD-TIMIT技术委员会数据集[Harte and Gillen 2015]由60名志愿者演讲者组成，每个演讲者大约有200个视频。说话者背诵TIMIT数据集[S Garofolo et al. 1992]中的各种句子，并使用前置和30度摄像机进行记录。我们在这三个数据集上评估我们的结果，以便与以前的工作进行比较。

最近，Chung et al. [2016]引入了大规模唇读阅读句子（LRS）数据集，其中包括各种各样的说话者和来自更大词汇表的单词。然而，不仅数据集不可公开，而且LRS视频中的语音也不能保证是干净的，这对于训练语音分离和增强模型至关重要。

3.AVSPEECH数据集

我们引入了一个新的，大规模的视听数据集，包括语音剪辑没有干扰的背景信号。这些片段的长度不等，在3到10秒之间，在每个片段中，视频中唯一可见的面孔和配乐中唯一可听到的声音属于一个说话的人。总的来说，该数据集包含大约4700小时的视频片段，大约有150，000个不同的说话者，涵盖了各种各样的人，语言和面部姿势。图2显示了代表性的帧、音频波形和一些数据集统计数据。

我们自动收集了数据集，因为要组装如此规模的语料库，重要的是不要依赖大量的人类反馈。我们的数据集创建管道收集了大约290，000个YouTube演讲视频（例如TED演讲）和操作视频的片段。对于这些频道，大多数视频包括单个说话者，视频和音频通常都具有高质量。

图1.图3。用于数据集创建的视频和音频处理：（a）我们使用面部检测和跟踪来从视频中提取候选语音片段，并剔除面部模糊或面部朝向不够正面的帧。(b)我们通过估计语音SNR来丢弃具有噪声语音的片段（参见第3节）。该图旨在显示我们的语音SNR估计器的准确性（以及数据集的质量）。我们比较了真实的语音信噪比与我们的预测信噪比的合成混合物的干净语音和非语音噪声在已知的信噪比水平。预测的SNR值（以dB为单位）在每个SNR仓的60个生成的混合上被平均，误差条表示1标准。我们丢弃预测语音SNR低于17dB的段（在图中由灰色虚线标记）。

数据集创建管道。我们的数据集收集过程有两个主要阶段，如图3所示。首先，我们使用Hoover等人的说话者跟踪方法。[2017]检测一个人在面部可见的情况下主动说话的视频片段。模糊的、照明不足的或具有极端姿势的面部帧从片段中被丢弃。如果超过15%的片段的面部帧丢失，则将其完全丢弃。我们在此阶段使用Google Cloud Vision API 1进行分类，并计算图2中的统计数据。

构建数据集的第二步是细化语音片段，使其仅包含干净、不受干扰的语音。这是一个至关重要的组成部分，因为这些片段在训练过程中充当地面实况。我们通过如下估计每个片段的语音SNR（主要语音信号与音频信号的其余部分的对数比）来自动执行该细化步骤。

我们使用一个预先训练好的纯音频语音去噪网络来预测给定片段的SNR，使用去噪输出作为对干净信号的估计。该网络的架构与第5节中为纯音频语音增强基线实现的架构相同，并且它是在LibriVox公共领域有声读物集合中进行训练的。拒绝估计SNR低于阈值的段。阈值是使用不同的已知SNR下的干净语音和非语音干扰噪声的合成混合物来经验性地设置的水平。这些合成混合物被输入去噪网络，并将估计（去噪）SNR与地面真实SNR进行比较（见图）。3（B））。

我们发现，在低信噪比，平均而言，估计的SNR是非常准确的，因此可以被认为是一个很好的预测的原始噪声水平。在较高SNR（即，具有原始语音信号的很少干扰或没有干扰的段）处，该估计器的准确性降低，因为噪声信号是微弱的。发生这种情况的阈值约为17 dB，如图3（B）所示。我们随机听了100个通过这种过滤的片段，发现没有一个包含明显的背景噪音。我们在补充材料中提供了来自我们数据集的示例视频剪辑。

4.视听语音分离模型

在高层次上，我们的模型由多流架构组成，该架构将检测到的人脸和嘈杂音频的视觉流作为输入，并输出复杂的频谱图掩码，每个掩码对应于视频中检测到的每个人脸（图4）。然后，噪声输入频谱图乘以掩码，以获得每个说话者的隔离语音信号，同时抑制所有其他干扰信号。

视频和音频表示

输入要素。我们的模型同时采用视觉和听觉特征作为输入。给定一个包含多个说话人的视频剪辑，我们使用现成的人脸检测器（例如Google Cloud Vision API）在每一帧中查找人脸（每个说话人总共有75个人脸缩略图，假设3秒的剪辑速度为25 FPS）。我们使用一个预先训练的人脸识别模型来为每个检测到的人脸缩略图提取每帧一个人脸嵌入。我们使用网络中的最低层，该层在空间上没有变化，类似于科尔等人[2016]用于合成人脸的层。这样做的基本原理是，这些嵌入保留了识别数百万张人脸所必需的信息，同时丢弃了图像之间的不相关变化，例如照明。事实上，最近的工作也表明，从这种嵌入中恢复面部表情是可能的[Rudd et al. 2016]。我们还对面部图像的原始像素进行了实验，但没有提高性能。

对于音频特征，我们计算3秒音频段的短时傅立叶变换（STFT）。每个时频（TF）仓包含复数的真实的部分和虚部，这两者都用作输入。我们执行幂律压缩，以防止响亮的音频压倒软音频。相同的处理被应用于噪声信号和干净的参考信号两者。

在推理时，我们的分离模型可以应用于任意长的视频片段。当在一帧中检测到多个说话的人脸时，我们的模型可以接受多个人脸流作为输入，我们将很快讨论。

输出.我们的模型的输出是一个乘法谱图掩模，它描述了干净语音与背景干扰的时频关系。在之前的工作中[Wang and Chen 2017; Wang et al. 2014]，已观察到乘法掩码比直接预测声谱图幅度或直接预测时域波形等替代方法更有效。在源分离文献[Wang and Chen 2017]中存在许多类型的基于掩蔽的训练目标，其中我们使用两种进行了实验：比率掩码（RM）和复比率掩码（cRM）。

图1.我们的模型基于多流神经网络的架构：视频流将视频中每帧中检测到的人脸的缩略图作为输入，音频流将视频的音轨作为输入，其中包含语音和背景噪声的混合。视觉流使用预先训练的面部识别模型来提取每个缩略图的面部嵌入，然后使用扩张的卷积NN来学习视觉特征。音频流首先计算输入信号的STFT以获得频谱图，然后使用类似的扩张卷积NN来学习音频表示。然后，通过连接所学习的视觉和音频特征来创建联合的视听表示，并且随后使用双向LSTM和三个完全连接的层来进一步处理该视听表示。该网络输出每个说话者的复频谱图掩模，该复频谱图掩模乘以有噪声的输入，并被转换回波形以获得每个说话者的隔离的语音信号。

理想比率掩模被定义为干净频谱图和有噪声频谱图的幅度之间的比率，并且被假设为位于0和1之间。复理想比率掩模被定义为复干净谱图和噪声谱图的比率。cRM具有真实的分量和虚分量，它们在真实的域中被分别估计。复掩码的真实的和虚部通常介于-1和1之间，然而，我们使用S形压缩将这些复掩码值限制在0和1之间[Wang等人，2016]。

当用cRM掩蔽时，通过对预测的cRM和噪声频谱图的复数乘法执行逆STFT（ISTFT）来获得去噪波形。当使用RM时，我们对预测的RM和噪声频谱图幅度的逐点乘法执行ISTFT，并结合噪声原始相位[Wang and Chen 2017]。

给定多个检测到的说话者的面部流作为输入，网络为每个说话者输出一个单独的掩码，以及一个用于背景干扰的掩码。我们使用cRM进行了大部分实验，因为我们发现使用它的输出语音质量明显优于RM。两种方法的定量比较见表6。

网络架构

图4提供了我们的网络中的各个模块的高级概述，我们现在将详细描述。

音频和视频流。我们模型的音频流部分由膨胀的卷积层组成，其参数在表1中指定。

我们模型的视觉流用于处理输入的人脸嵌入（见4.1节），由表2中详细描述的膨胀卷积组成。请注意，视觉流中的“空间”卷积和膨胀是在时间轴上执行的（而不是在1024-D人脸嵌入通道上）。

为了补偿音频和视频信号之间的采样率差异，我们对视觉流的输出进行上采样以匹配频谱图采样率（100 Hz）。这是通过在每个视觉特征的时间维度中使用简单的最近邻插值来完成的。

AVfusion.动静脉融合。音频流和视频流通过连接每个流的特征映射而被组合，这些特征映射随后被馈送到BLSTM，其后是三个FC层。最终输出由每个输入发言者的复数掩码（两个通道，真实的和虚部）组成。相应的谱图通过有噪声的输入谱图和输出掩模的复数乘法来计算。将幂律压缩的干净谱图和增强谱图之间的平方误差（L2）用作损耗函数来训练网络。如第4.1节所述，使用ISTFT获得最终输出波形。

有多个说话者。我们的模型支持视频中多个可见说话人的隔离，每个说话人由一个视频流表示，如图4所示。为每个数目的可视说话者训练单独的专用模型，例如，具有用于一个可视说话者的一个视觉流的模型、用于两个可视说话者的双视觉流模型等。所有视觉流在卷积层上共享相同权重。在这种情况下，在继续到BLSTM之前，将来自每个视觉流的所学习的特征与所学习的音频特征级联。应当注意，在实践中，在说话人的数量未知或者专用的多发言者模型不可用的一般情况下，可以使用将单个视觉流作为输入的模型。

实现细节

我们的网络在TensorFlow中实现，其包含的操作用于执行波形和STFT转换。ReLU激活遵循所有网络层，除了last（mask），其中应用了sigmoid。批量归一化[Ioffe and Szegedy 2015]在所有卷积层之后执行。不使用Dropout，因为我们在大量数据上训练，并且不会受到过度拟合的影响。我们使用6个样本的批量大小，并使用Adam优化器进行500万步（批次）的训练，学习率为3· 10−5，每180万步减少一半。

所有音频都被重新采样到16 kHz，立体声音频通过只取左声道转换为单声道。STFT使用长度为25 ms的Hann窗口、10 ms的跳长和512的FFT大小来计算，得到257 × 298 × 2标量的输入音频特征。在p = 0.3（A0.3，其中A是输入/输出音频频谱图）的情况下执行幂律压缩。

我们在训练和推理之前，通过删除或复制嵌入，将所有视频中的人脸嵌入重新采样到25帧每秒（FPS）。这导致75个面部嵌入的输入视觉流。使用科尔等人[2016]描述的工具进行人脸检测、对齐和质量评估。当在特定样本中遇到丢失帧时，我们使用零向量代替面部嵌入。

5.实验和结果

我们在各种条件下测试了我们的方法，并将我们的结果与最先进的纯音频（AO）和视听（AV）语音分离和增强进行了定量和定性的比较。

与仅音频比较。没有公开可用的最先进的纯音频语音增强/分离系统，并且用于训练和评估纯音频语音增强的公开可用的数据集相对较少。虽然有大量关于用于纯音频语音增强和分离的“盲源分离”的文献[Comon and Jutten 2010]，但这些技术中的大多数需要多个音频通道（多个麦克风），因此不适用于我们的任务。出于这些原因，我们实现了用于语音增强的AO基线，其具有与我们的视听模型中的音频流类似的架构（图4，当剥离视觉流时）。当在广泛用于语音增强工作的CHiME-2数据集[Vincent et al. 2013]上进行训练和评估时，我们的AO基线实现了14.6 dB的信号失真比，几乎与Erdogan et al. [2015]报告的14.75 dB的最先进单通道结果一样好。因此，我们的AO增强模型被视为接近最先进的基线。

为了将我们的分离结果与最先进的AO模型的分离结果进行比较，我们实现了Yu et al. [2017]引入的置换不变训练。请注意，使用这种方法的语音分离需要录音中存在的源数量的先验知识，并且还需要将每个输出通道手动分配给视频中相应说话人的面部（我们的AV方法自动完成）。

我们在第5.1节中的所有合成实验中使用这些AO方法，并在第5.2节中在真实的视频上进行了定性比较。

与最近的视听方法的比较。由于现有的AV语音分离和增强方法是说话者相关的，因此我们不能在我们的合成混合物的实验（5.1节）中容易地与它们进行比较，或者在我们的自然视频上运行它们（5.2节）。然而，我们通过在这些论文的视频上运行我们的模型，在现有的数据集上显示了与这些方法的定量比较。我们将在第5.3节中更详细地讨论这种比较。此外，我们还在补充材料中进行了定性比较。

合成混合物的定量分析

我们生成了几个不同的单通道语音分离任务的数据。每项任务都需要其独特的语音和非语音背景噪声混合配置。我们在下面描述了每个训练数据变体的生成过程，以及每个任务的相关模型，这些模型是从头开始训练的。

在所有情况下，干净的语音片段和相应的人脸都取自我们的AVSpeech(AVS)数据集。非语音背景噪声来自AudioSet[Gemmeke等人。2017]，一个大规模的数据集 YouTube视频中手动注释的片段。使用BSS Eval工具箱[Vincent et al. 2006]中的信号失真比（SDR）改进来评估分离语音质量，SDR是评估语音分离质量的常用指标（参见附录中的A节）。

表3.与纯音频语音分离和增强的定量分析和比较：使用不同网络配置，作为输入视频流数量的函数的质量改进（在SDR中，参见附录中的A部分）。第一行（仅音频）是我们实现的最先进的语音分离模型，并显示为基线。

我们从数据集中的不同长度片段中提取了3秒的非重叠片段（例如，10秒的片段将贡献3个3秒的片段）。我们为所有模型和实验生成了150万个合成混合物。对于每个实验，90%的生成数据被用作训练集，剩下的10%用作测试集。我们没有使用任何验证集，因为没有进行参数调整或提前停止。

一个发言者+噪音（1S+噪音）。这是一个经典的语音增强任务，其训练数据由未归一化的干净语音和AudioSet噪声的线性组合生成：Mixi = AVSj + 0.3 μ AudioSetk其中AVSj是来自AVS的一个话语，AudioSetk是来自AudioSet的一个片段，其幅度乘以0.3，Mixi是合成混合物的生成数据集中的样本。我们的仅音频模型在这种情况下表现得很好，因为噪声的特征频率通常与语音的特征频率很好地分离。我们的视听（AV）模型的性能与SDR为16 dB的纯音频（AO）基线一样好（表3的第一列）。

两个干净的说话者（2S干净）。这个两个说话者分离场景的数据集是通过混合来自我们的AVS数据集的两个不同说话者的干净语音生成的：Mixi = AVSj + AVSk，其中AVSj和AVSk是来自我们数据集中不同源视频的干净语音样本，Mixi是合成混合物生成的数据集中的样本。我们在这个任务上训练了两个不同的AV模型，除了我们的AO基线：

(i)一种模型，只需要一个视觉流作为输入，并只输出相应的去噪信号。在这种情况下，在推理时，每个说话者的去噪信号通过网络中的两个前向传递（每个说话者一个）获得。对该模型的SDR结果求平均值，得到比我们的AO基线（表3的第二列）提高1.3 dB。

(ii)一种模型，它将来自两个说话者的视觉信息作为输入，在两个单独的流中（如第4节所述）。在这种情况下，输出由两个掩码组成，每个说话者一个，并且推理是通过单个前向传递完成的。使用此模型可获得0.4 dB的额外提升，从而实现10.3 dB的总SDR改善。直觉，联合处理两个视觉流为网络提供了更多的信息，并对分离任务施加了更多的约束，从而改善了结果。

图5.输入SDR与输出SDR改善：散点图显示了分离性能（SDR改善）与分离两个干净说话人（2S干净）任务的原始（有噪声）SDR的函数关系。每个点对应于来自测试集的单个3秒视听样本。

见图6。输入和输出音频的示例：顶行显示了我们的训练数据中的一个片段的音频频谱图，包括两个发言者和背景噪声（a），以及每个说话人的单独的地面实况频谱图（B，c）。在最下面一行，我们展示了我们的结果：我们的方法估计的该片段的掩码，叠加在每个说话人（d）的不同颜色的频谱图上，以及每个说话人（e，f）的相应输出频谱图。

图5示出了对于仅音频基线和我们的两个说话者视听模型，SDR改善作为该任务的输入SDR的函数。

两个说话者+噪音（双路+噪音）。这里，我们考虑将一个说话者的声音从两个说话者和非语音背景噪声的混合中分离出来的任务。据我们所知，这一视听任务以前从未处理过.通过将两个不同说话者的干净语音（如为2S干净任务所生成的）与来自AudioSet的背景噪声混合来生成训练数据：Mixi = AVSj +AVSk + 0.3 * AudioSetl。

在这种情况下，我们用三个输出来训练AO网络，一个用于每个说话者，一个用于背景噪声。此外，我们训练了模型的两种不同配置，分别接收一个和两个视觉流作为输入。单流AV模型的配置与先前实验中的模型（i）相同。双流AV输出三个信号，一个用于每个说话者，一个用于背景噪声。从表3（第三列）可以看出，我们的单流AV模型在仅音频基线上的SDR增益为0.1 dB，两个流为0.5 dB，使总SDR改善达到10.6 dB。图6示出了来自该任务的样本段的推断的掩码和输出频谱图，沿着其噪声输入和地面实况频谱图。

表4.同性别分居。该表中的来自2S clean实验的结果表明，我们的方法对于从同性混合语音中分离语音是鲁棒的。

三个干净的说话人（3S干净）。该任务的数据集是通过混合来自三个不同说话者的清晰语音来创建的：Mixi = AVSj +AVSk +AVSl。与前面的任务类似，我们用一个、两个和三个视觉流作为输入训练我们的AV模型，这些视觉流分别输出一个、两个和三个信号。

我们发现，即使在使用单个视觉流时，AV模型也比AO模型表现得更好，比AO模型提高了0.5 dB。两个视觉流配置比AO模型提供了相同的改进，而使用三个视觉流导致1.4 dB的增益，实现了总共10 dB的SDR改进（表3的第四列）。

同性别分居。当尝试分离包含同性语音的语音混合物时，许多先前的语音分离方法显示出性能下降[Delfarah and Wang 2017; Hershey et al. 2016]。表4按不同性别组合对我们的分离质量进行了细分。有趣的是，我们的模型在雌性-雌性混合体上表现最好（以较小的幅度），但在其他组合上也表现良好，这表明了它的性别鲁棒性。

真实世界的语音分离

为了证明我们的模型在现实场景中的语音分离能力，我们在各种各样的视频上进行了测试，这些视频包括激烈的辩论和采访，嘈杂的酒吧和尖叫的孩子（图7）。在每个场景中，我们都使用一个经过训练的模型，其视觉输入流的数量与视频中可见说话者的数量相匹配。例如，对于具有两个可见发言者的视频，使用两个发言者模型。我们使用每个视频的单个前向传递来执行分离，这是我们的模型支持的，因为我们的网络架构从不强制执行特定的持续时间。这使我们能够避免对较短视频块进行后处理和合并结果的需要。由于这些示例没有清晰的参考音频，因此对这些结果及其与其他方法的比较进行了定性评估;它们在我们的补充材料中提供。应该注意的是，我们的方法不能实时工作，并且，在其当前形式下，我们的语音增强更适合视频编辑的后处理阶段。

我们补充材料中的合成“双布雷迪”视频突出了我们的模型对视觉信息的利用，因为在这种情况下仅使用音频中包含的特征语音频率来执行语音分离是非常困难的。

“噪声条”场景显示了我们的方法在从低SNR的混合物中分离语音方面的局限性。在这种情况下，背景噪声几乎完全被抑制，但是输出语音质量明显降低。Sun等人[2017]观察到，这种限制源于使用基于掩蔽的分离方法，在这种情况下，直接预测去噪谱图可以帮助克服这个问题。在经典的语音增强的情况下，即一个说话人与非语音背景噪声，我们的AV模型得到类似的结果，我们的强AO基线。我们怀疑这是因为噪声的特征频率通常与语音的特征频率很好地分离，因此结合视觉信息并不提供额外的辨别能力。

表5.与现有的视听语音分离工作进行比较。我们使用原始文献中报告的评估协议和客观评分，将我们在几个数据集上的语音分离和增强结果与先前的工作进行了比较。注意，以前的方法是说话人相关的，而我们的结果是通过使用一般的、说话人无关的模型获得的。

视听语音分离与增强的比较

如果不将我们的结果与AV语音分离和增强中以前的工作进行比较，我们的评估将是不完整的。表5包含了第2节中提到的三个不同AV数据集（普通话、TCD-TIMIT和CUAVE）的比较，使用了相应论文中描述的评估协议和指标。报告的客观质量评分为PESQ [Rix等人，2001]、STOI [Taal等人，2010]和BSS评估工具箱中的SDR [Vincent等人，2006]。这些比较的定性结果可以在我们的项目页面上找到。

重要的是要注意，这些先前的方法需要在其数据集中为每个说话者训练专用模型（说话者相关），而我们对他们数据的评估是使用在我们的通用AVS数据集上训练的模型（说话者独立）。尽管以前从未遇到过这些特定的说话者，但我们的结果明显优于原始论文中报道的结果，表明我们的模型具有很强的泛化能力。

应用于视频转录

虽然我们在本文中的重点是语音分离和增强，我们的方法也可以用于自动语音识别（ASR）和视频转录。作为概念验证，我们进行以下定性实验。我们将“Stand-Up”视频的语音分离结果上传到YouTube，并将YouTube自动字幕3生成的字幕与相应的混合语音源视频生成的字幕进行比较。对于部分原始的“站立”视频，ASR系统无法在视频的混合语音片段中生成任何字幕。结果包括两个说话者的讲话，导致难以阅读的句子。然而，在我们分离的语音结果上产生的字幕明显更准确。我们在补充材料中展示了完整的字幕视频。

额外分析

我们还进行了广泛的实验，以更好地了解模型的行为以及其不同组件如何影响结果。

消融研究。为了更好地理解我们的模型的不同部分的贡献，我们对从两个干净说话人的混合物（2S干净）中分离语音的任务进行了消融研究。除了消除网络模块的几种组合（视频和音频流、BLSTM和FC层）之外，我们还研究了更高级别的变化，例如不同的输出掩码（幅度）、将学习到的视觉特征减少到每个时间步一个标量的影响以及不同的融合方法（早期融合）。

在早期的融合模型中，我们没有单独的视觉和音频流，而是在输入端将这两种模态联合收割机组合起来。这是通过首先使用两个完全连接的层来降低每个视觉嵌入的维度以匹配每个时间步处的频谱图维度，然后将视觉特征堆叠为第三个谱图“通道”并在整个模型中联合处理它们。

表6显示了消融研究的结果。该表包括使用SDR和ViSQOL进行的评估[Hines et al. 2015]，这是一种旨在近似人类听众语音质量平均意见评分（MOS）的客观指标。ViSQOL评分是根据我们测试数据的随机2000个样本子集计算的。我们发现SDR与分离后的音频中残留的噪声量有很好的相关性，ViSQOL是输出语音质量的更好指标。有关这些评分的更多详细信息，请参见附录中的A节。“Oracle”RM和cRM是如第4.1节所述通过分别使用地面真值实值和复值谱图获得的掩码。

这项研究最有趣的发现是当使用实值幅度掩码而不是复杂的掩码时MOS的下降，以及将视觉信息压缩到每个时间步的一个标量中的惊人效果，如下所述。

瓶颈功能。在我们的消融分析中，我们发现将视觉信息挤入每时间步一个标量的瓶颈（“瓶颈（cRM）”）的网络与我们的每时间步使用64个标量的全模型（“全模型（cRM）”）几乎一样好地执行（仅少0.5dB）。

模型如何利用视觉信号？我们的模型使用人脸嵌入作为输入视觉表示（第4.1节）。我们希望深入了解这些高级特征中捕获的信息，并确定模型使用输入帧的哪些区域来分离语音。为此，我们遵循与[Zeiler and费尔格斯2014; Zhou et al. 2014]类似的协议来可视化深度网络的感受野。我们将该协议从2D图像扩展到3D（时空）视频。更具体地说，我们使用一个时空补丁遮挡器（11 px × 11 px × 200 ms patch 4）在一个滑动窗口的方式。对于每个时空遮挡器，我们将被遮挡的视频前馈到我们的模型中，并将语音分离结果Socc与原始（非遮挡）视频Soriд进行比较。为了量化网络输出之间的差异，我们使用SNR，处理结果，限流器作为“信号器“5。也就是说，对于每个时空片，我们计算：

对视频中的所有时空补丁重复此过程会产生每帧的热图。出于可视化目的，我们通过视频的最大SNR对热图进行归一化：E = Emax − E。在E中，高值对应于对语音分离结果具有高影响的补丁。

在图8中，我们显示了来自几个视频的代表性帧的热图（完整的热图视频可在我们的项目页面上获得）。正如预期的那样，贡献最大的面部区域位于嘴巴周围，但可视化显示其他区域，如眼睛和脸颊也有贡献。

视觉信息缺失的影响。我们通过逐步消除视觉嵌入进一步测试了视觉信息对模型的贡献。具体来说，我们首先运行模型，并使用完整的3秒视频的视觉信息来评估语音分离质量。然后，我们逐渐丢弃片段两端的嵌入，并重新评估视觉持续时间为2，1，0.5和0.2秒的分离质量。

结果如图9所示。有趣的是，当在片段中丢弃多达2/3的视觉嵌入时，语音分离质量平均仅降低0.8 dB。这显示了模型对丢失视觉信息的鲁棒性，丢失视觉信息可能由于头部运动或遮挡而发生在真实的世界场景中。

6.结论

提出了一种基于视听神经网络的单通道非特定人语音分离模型。我们的模型在具有挑战性的场景中工作良好，包括多发言人混合背景噪音。为了训练模型，我们创建了一个新的视听数据集，其中包含数千小时的视频片段，其中包含我们从网络上收集的可见说话人和干净的语音。我们展示了语音分离的最新成果以及视频字幕和语音识别的潜在应用。我们还进行了大量的实验来分析我们的模型及其组件的行为。