【论文阅读】Deep Contextual Video Compression

摘要：

现有的大多数神经视频压缩方法采用预测编码框架，首先生成预测帧，然后对其残差进行编码。然而，在压缩比方面，预测编码是次优解决方案，因为它仅使用简单的减法操作来消除帧间冗余。在本文中，我们提出了一种基于深度上下文的视频压缩框架，使得预测编码向条件编码的范式发生转变。具体来说，我们尝试回答以下问题：在深度视频压缩框架下，如何定义、使用和学习条件。为了充分挖掘条件编码的潜力，我们提出使用特征域上下文作为条件。这使我们能够利用高维上下文为编码器和解码器提供丰富的信息，从而帮助重建高频内容以实现更高的视频质量。我们的框架也具有可扩展性，其中条件的设计可以灵活调整。实验表明，与之前的最先进（SOTA）深度视频压缩方法相比，我们的方法能够显著提升性能。与x265使用veryslow预设相比，我们在1080P标准测试视频上实现了26.0%的比特率节省。代码可在 GitHub 获得。
paper: pdf
code:https://github.com/DeepMC-DCVC/DCVC

引言：

从1988年开发的H.261到2020年刚发布的H.266，所有传统视频编码标准都基于预测编码范式。该范式通过手工设计的模块生成预测帧，然后对当前帧与预测帧之间的残差进行编码和解码。最近，许多基于深度学习的视频压缩方法也采用了预测编码框架来编码残差，其中所有手工设计的模块都被神经网络替代。

考虑到帧间的强时序相关性，编码残差是视频压缩中一种简单而有效的方法。然而，残差编码在给定预测帧 $\tilde{x}_t$ 的条件下对当前帧 $x_t$ 进行编码时并不是最优的，因为它仅使用手工设计的减法操作来去除帧间冗余。根据信息论，残差编码的熵总是大于或等于条件编码的熵： $H(x_t - \tilde{x}_t) \geq H(x_t | \tilde{x}_t)$ ，其中 $H$ 表示Shannon熵。理论上，帧 $x_t$ 中的一个像素与之前解码的所有帧中的所有像素，以及当前帧 $x_t$ 中已经解码的像素，都存在相关性。对于传统视频编码器来说，由于搜索空间过大，无法通过手工规则显式地探索所有相关性。因此，残差编码作为条件编码的一种极其简化的特例被广泛采用，其假设当前像素仅与预测像素相关。

深度学习打开了自动化探索大空间相关性的大门。考虑到深度学习在图像压缩中的成功，仅通过自动编码器在图像中探索相关性，为什么不利用神经网络构建基于条件编码的自动编码器来探索视频中的相关性，而不是将视野限制在残差编码中？

通过设计基于条件编码的解决方案，一系列问题随之而来：什么是条件？如何使用条件？如何学习条件？技术上讲，条件可以是任何能够帮助压缩当前帧的信息。预测帧可以作为条件，但没有必要将其限制为条件的唯一表示。因此，我们将条件定义为具有任意维度的可学习上下文特征。基于此想法，我们提出了一个深度上下文视频压缩（DCVC）框架，以统一、简单且高效的方式利用条件。

在此框架中，编码器、解码器和熵模型均使用上下文信息作为输入的一部分。特别地，得益于上下文提供的时间先验，熵模型本身具有时间适应性，从而形成更丰富、更准确的模型。关于如何学习条件，我们建议在特征域中使用运动估计和运动补偿（MEMC）。MEMC能够指导模型从哪些位置提取有用的上下文。实验结果表明，所提出的DCVC框架的有效性。在1080p标准测试视频中，我们的DCVC比x265的veryslow预设节省了26.0%的比特率，比之前的最先进深度视频压缩方法DVCPro节省了16.4%的比特率。

事实上，条件编码的概念在之前的一些研究中已经提出过。然而，这些工作要么仅设计于部分模块（例如，仅熵模型或编码器），要么需要手工操作来筛选哪些内容应被条件编码。相比之下，我们的框架是一个更全面的解决方案，涵盖了编码、解码和熵建模。此外，DCVC是一个可扩展的条件编码框架，其中条件可以灵活地设计。虽然本文提出使用特征域MEMC来生成上下文特征并证明了其有效性，但我们认为，为了实现更高的压缩比，这仍然是一个值得进一步探索的问题。
我们的主要贡献如下：

我们设计了一个基于条件编码的深度上下文视频压缩框架。在该框架中，条件的定义、使用和学习方式均具有创新性。与之前基于残差编码的方法相比，我们的方法能够实现更高的压缩比。
我们提出了一种简单但高效的方法，利用上下文来辅助编码、解码以及熵建模。在熵建模中，我们设计了一个模型，该模型可以利用时空相关性以实现更高的压缩比，或者仅利用时间相关性以实现更快的速度。
我们将条件定义为特征域中的上下文。这种具有更高维度的上下文可以提供更丰富的信息，从而帮助重建高频内容。
我们的框架具有可扩展性。通过更好地定义、使用和学习条件，可以进一步提高压缩比，这在未来具有很大的潜力。

方法：

在本节中，我们将介绍提议的DCVC的细节。本文首先介绍了DCVC的总体框架。在此基础上，引入熵模型对隐码进行压缩，并引入上下文学习的方法。最后，给出了具体的训练方案。

DCVC框架

在传统视频编码器中，帧间编码通常采用残差编码，其公式如下：
$\hat{x}_t = f_{\text{dec}}\left(\left\lfloor f_{\text{enc}}(x_t - \tilde{x}_t) \right\rceil \right) + \tilde{x}_t, \quad \tilde{x}_t = f_{\text{predict}}(\hat{x}_{t-1}),$
其中， $\hat{x}_t$ 和 $\hat{x}_{t-1}$ 分别表示当前和先前解码的帧， $f_{\text{enc}}(\cdot)$ 和 $f_{\text{dec}}(\cdot)$ 分别是残差编码器和解码器， $\left\lfloor \cdot \right\rceil$ 是量化操作， $f_{\text{predict}}(\cdot)$ 表示生成预测帧的函数。在传统视频编码器中， $f_{\text{predict}}(\cdot)$ 通常通过运动估计与运动补偿（MEMC）来实现，而大多数现有的基于深度学习的视频编码方法则完全用神经网络来实现MEMC。

在本文中，我们没有采用常用的残差编码框架，而是尝试设计一个基于条件编码的框架，以获得更高的压缩比。一个简单的条件编码方法是直接使用预测帧 $\tilde{x}_t$ 作为条件，其公式为：
$\hat{x}_t = f_{\text{dec}}\left(\left\lfloor f_{\text{enc}}(x_t | \tilde{x}_t) \right\rceil \, \big| \, \tilde{x}_t\right), \quad \tilde{x}_t = f_{\text{predict}}(\hat{x}_{t-1}).$
然而，这种方法的条件仍然限制在像素域，且具有较低的通道维度，从而限制了模型的容量。既然已经采用了条件编码，为什么不让模型自己学习条件呢？因此，本文提出了一种上下文视频压缩框架，我们通过网络生成上下文，而不是预测帧。其公式为：
$\hat{x}_t = f_{\text{dec}}\left(\left\lfloor f_{\text{enc}}(x_t | \bar{x}_t) \right\rceil \, \big| \, \bar{x}_t\right), \quad \bar{x}_t = f_{\text{context}}(\hat{x}_{t-1}),$
其中， $f_{\text{context}}(\cdot)$ 表示生成上下文 $\bar{x}_t$ 的函数， $f_{\text{enc}}(\cdot)$ 和 $f_{\text{dec}}(\cdot)$ 分别是上下文编码器和解码器，与残差编码器和解码器不同。

在本文的设计中，为了为当前帧 $x_t$ 的编码提供更丰富、更相关的条件，上下文被定义在特征域中，并具有更高的维度。此外，由于上下文具有较大的容量，其中的不同通道可以自由地提取不同种类的信息。通过这种方式，我们的DCVC框架能够更好地重建复杂纹理，特别是包含大量高频信息的内容。

上下文不仅被用来生成潜在编码（latent codes），还被用来构建熵模型。这将在下一节详细介绍。

熵模型

根据信息论，估计的概率分布和实际潜在码分布之间的交叉熵是实际比特率的一个紧下界，即：
$R(\hat{y}_t) \geq \mathbb{E}_{\hat{y}_t \sim q_{\hat{y}_t}}\left[-\log_2 p_{\hat{y}_t}(\hat{y}_t)\right],$
其中， $p_{\hat{y}_t}(\hat{y}_t)$ 和 $q_{\hat{y}_t}(\hat{y}_t)$ 分别是量化潜在码 $\hat{y}_t$ 的真实概率质量函数和估计概率质量函数。实际上，算术编码几乎可以以交叉熵的比特率对潜在码进行编码，实际比特率 $R(\hat{y}_t)$ 和交叉熵的比特率之间的差距可以忽略不计。因此，我们的目标是设计一个能够准确估计潜在码概率分布 $p_{\hat{y}_t}(\hat{y}_t)$ 的熵模型。

在本文中，我们的熵模型框架如下图所示。首先，我们使用超先验模型来学习层次先验信息，并使用自回归网络来学习空间先验。这两种先验在深度图像压缩中非常常见。然而，对于视频，潜在码还具有时间相关性。因此，我们提出使用上下文 $\bar{x}_t$ 来生成时间先验。为了探索时间相关性，我们设计了一个时间先验编码器，先验融合网络会学习融合这三种不同的先验，从而估计潜在码分布的均值和方差。
在这里插入图片描述

在本文中，我们假设 $p_{\hat{y}_t}(\hat{y}_t)$ 服从拉普拉斯分布，其公式为：
$p_{\hat{y}_t}(\hat{y}_t | \bar{x}_t, \hat{z}_t) = \prod_i \left( L(\mu_{t,i}, \sigma_{t,i}^2) * U\left(-\frac{1}{2}, \frac{1}{2}\right) \right)(\hat{y}_{t,i}),$
其中，
$\mu_{t,i}, \sigma_{t,i} = f_{\text{pf}}\left(f_{\text{hpd}}(\hat{z}_t), f_{\text{ar}}(\hat{y}_{t,<i}), f_{\text{tpe}}(\bar{x}_t)\right).$
在公式中， $i$ 表示空间位置， $f_{\text{hpd}}(\cdot)$ 是超先验解码网络， $f_{\text{ar}}(\cdot)$ 是自回归网络， $f_{\text{tpe}}(\cdot)$ 是专门设计的时间先验编码器网络， $f_{\text{pf}}(\cdot)$ 表示先验融合网络。

熵模型中提出的时间先验具有并行性，这使得我们的框架在编码/解码速度上具有优势。我们还提供了一种仅依赖时间先验的加速方案，该方案移除了空间先验，其公式为：
$\mu_{t,i}, \sigma_{t,i} = f_{\text{pf}}\left(f_{\text{hpd}}(\hat{z}_t), f_{\text{tpe}}(\bar{x}_t)\right).$

上下文学习

关于如何学习上下文，一种替代方案是直接使用一个由多层卷积构成的简单网络，其输入为先前解码的帧 $\hat{x}_{t-1}$ ，输出为上下文 $\bar{x}_t$ 。然而，对于一个没有监督的简单网络来说，很难提取到有用的信息。视频中通常包含各种内容，并且存在大量复杂的运动。对于当前帧中的一个位置，参考帧中对应的位置可能具有较低的相关性。在这种情况下，生成的上下文 $\bar{x}_t$ 也与当前帧 $x_t$ 的相关性较低，这样的上下文无法有效促进 $x_t$ 的压缩。

为了解决这个问题，我们采用了运动估计与运动补偿（MEMC）的思想。然而，与传统像素域的MEMC不同，我们提出在特征域中执行MEMC。上下文生成函数 $f_{\text{context}}$ 的设计如下：
$f_{\text{context}}(\hat{x}_{t-1}) = f_{\text{cr}}\left(\text{warp}(f_{\text{fe}}(\hat{x}_{t-1}), \hat{m}_t)\right),$
我们首先设计了一个特征提取网络 $f_{\text{fe}}$ ，将参考帧从像素域转换为特征域。与此同时，我们使用光流估计网络来学习当前帧 $x_t$ 和参考帧 $\hat{x}_{t-1}$ 之间的运动矢量（MV） $m_t$ 。随后对 $m_t$ 进行编码和解码得到 $\hat{m}_t$ ，并通过变形操作 warp 来引导网络提取上下文，得到一个相对粗糙的上下文 $\ddot{x}_t = \text{warp}(f_{\text{fe}}(\hat{x}_{t-1}), \hat{m}_t)$ 。由于warp操作可能引入空间不连续性，我们设计了一个上下文精炼网络 $f_{\text{cr}}$ 来获得最终的上下文 $\bar{x}_t = f_{\text{cr}}(\ddot{x}_t)$ 。

在 $f_{\text{context}}$ 函数中，运动矢量 $\hat{m}_t$ 不仅引导了网络从参考帧中提取上下文，还使网络能够从比没有MEMC的方案更大的参考区域中学习上下文。
在这里插入图片描述

损失函数

视频压缩的目标是以最少的比特率获取最佳的重建质量。因此，训练的损失函数由以下两个指标组成：
$\lambda \cdot D + R,$
其中， $\lambda$ 控制失真 $D$ 和比特率开销 $R$ 之间的权衡。失真 $D$ 可以根据不同的目标采用均方误差（MSE）或多尺度结构相似性（MS-SSIM）。在训练过程中，比特率 $R$ 被计算为潜在编码的真实概率与估计概率之间的交叉熵。

学习率在训练开始时设置为 $10^{-4}$ ，在微调阶段设置为 $10^{-5}$ 。训练时的批量大小设置为 4。为了公平比较DCVC与其他方法，我们按照现有方法的设定，训练了 4 个不同 $\lambda$ 值的模型，其中，MSE目标的 $\lambda$ 值为 ${256, 512, 1024, 2048\}$ ，MS-SSIM目标的 $\lambda$ 值为 ${8, 16, 32, 64\}$ 。

实验：

实验设置

训练数据
我们使用 Vimeo-90k septuplet 数据集中的训练部分作为我们的训练数据。在训练期间，我们会随机裁剪视频为 $256 \times 256$ 的小块。

测试数据
测试数据包括来自 HEVC Class B (1080P)、Class C (480P)、Class D (240P)、Class E (720P) 的公共测试条件数据。此外，还测试了 MCL-JCV 和 UVG 数据集中的 1080P 视频。

测试设置}
组帧（GOP）大小与现有方法一致：HEVC 视频的 GOP 大小为 10，非 HEVC 视频的 GOP 大小为 12。由于本文仅关注帧间编码，帧内编码我们直接使用由 CompressAI 提供的现有深度图像压缩模型。我们使用 Cheng2020-anchor 模型作为 MSE 目标的帧内编码器，使用 Hyperprior 模型作为 MS-SSIM 目标的帧内编码器。

根据性能比较，DVCPro 是最近研究中的一个最先进的深度学习视频压缩模型。因此，我们在实验中与 DVCPro 进行比较。此外，其前身 DVC 也参与了测试。为了公平比较，DVC 和 DVCPro 的帧内编码与 DCVC 使用相同的图像压缩模型。对于传统的编码器，我们测试了 x264 和 x265 编码器。
在这里插入图片描述

在这里插入图片描述

性能比较

压缩比
实验结果显示，我们的 DCVC 模型在所有比特率范围内都优于 DVCPro。在 MCL-JCV、UVG、HEVC Class B 数据集上的比特率节省分别为 23.9%、25.3% 和 26.0%，而在低分辨率视频（HEVC Class C 和 D 数据集）上，分别节省了 5.8% 和 17.5%。在 HEVC Class E（运动较小的视频）上，比特率节省为 11.9%。

DCVC 在高分辨率视频上的改进更为显著，这是因为高分辨率视频包含更多高频纹理。这些高频内容可以从特征域上下文中获得更丰富的信息，从而提高重建质量。
复杂度
复杂度DCVC的MAC（乘累加运算）为2268G，DVCro为2014G，增加了约13%。但在P40 GPU上，DCVC每1080P帧的实际推理时间为857 ms，DVCPro为849 ms，仅增加了约1%，主要是由于GPU的并行能力。

消融研究

在这里插入图片描述

条件编码和时间先验
在我们的DCVC中，我们提出使用基于拼接的条件编码来替代基于减法的残差编码。同时，我们为熵模型设计了时间先验。为了验证这些想法的有效性，我们进行了表2所示的消融研究，其中基线是我们最终的解决方案（即时间先验+拼接上下文特征）。从表中可以看出，拼接RGB预测和拼接上下文特征都能提高压缩比率。这验证了条件编码相比残差编码的优势。此外，我们还发现，拼接上下文特征的改进远大于拼接RGB预测。这表明特征域中的上下文具有更大的优势。从表2中还可以看出，所提出的时间先验进一步提升了性能，并且在条件编码（无论是拼接RGB预测还是拼接上下文特征）的情况下，其改进比在残差编码下更大。这些结果展示了我们提出方案的优势。
在这里插入图片描述

熵模型
在DCVC中，除了超先验模型外，用于压缩量化潜在码 $\hat{y}_t$ 的熵模型同时利用了空间先验和时间先验以实现更高的压缩比。然而，空间先验的缺点是由于其引入了空间依赖性且是非并行的操作，导致编码/解码速度较慢。相比之下，所提出的时间先验的所有操作都是并行的。因此，我们的DCVC也支持移除空间先验，而仅依赖时间先验以加速。得益于丰富的时间上下文，仅使用时间先验的模型比特率增加较小。表3对比了空间先验和时间先验对性能的影响。从表中可以看出，如果同时禁用这两种先验，性能会大幅下降。启用其中任意一种先验都能显著提升性能，而启用两种先验的效果会更进一步。然而，考虑到复杂性和压缩比之间的权衡，仅使用超先验和时间先验的解决方案是更优的。这些结果表明了基于时间先验的熵模型的优势。

在这里插入图片描述

帧内编码的影响及与更多基线的比较
为了构建最优的基于深度学习的视频压缩框架，我们使用当前最先进（SOTA）的深度学习图像压缩模型作为我们的帧内编码器。需要注意的是，为了公平比较，DVC和DVCPro使用与DCVC相同的帧内编码器进行了重新测试，其结果比它们原始论文中报告的性能更好。图7显示了我们重新测试的DVC/DVCPro与它们公开结果之间的性能比较。此外，图7还展示了最近的研究成果RY_CVPR20、LU_ECCV20和HU_ECCV20的结果。

从图中公开的结果可以看出，DVCPro是最近研究中的一个SOTA方法。LU_ECCV20和HU_ECCV20的结果与DVCPro非常接近。当DVC和DVCPro的帧内编码使用CompressAI提供的SOTA深度学习图像压缩模型cheng2020-anchor时，它们的性能有了显著的提升。在使用相同帧内编码的条件下，我们提出的DCVC方法可以显著优于DVCPro，如图7所示。

结论：

在本文中，我们专注于设计一个基于条件编码的深度视频压缩框架，其熵下界低于通常使用的基于残差编码的框架。基于残差编码的框架假设帧间预测始终是最有效的，这种假设是不充分的，尤其是在编码新内容时。相比之下，我们的条件编码能够在学习时间相关性和空间相关性之间实现适应性。此外，在DCVC中，条件被定义为特征域中的上下文。高维上下文能够提供更丰富的信息来帮助条件编码，特别是在处理高频内容时。

在未来，高分辨率视频将更加流行。高分辨率视频中包含更多的高频内容，这意味着DCVC的优势将更加明显。

在设计基于条件编码的框架时，核心问题是：什么是条件？如何使用条件？如何学习条件？在本文中，DCVC是一个能够回答这些问题并证明其有效性的解决方案。然而，这些核心问题仍然是开放的。我们的DCVC框架具有扩展性，并且值得进一步研究。通过更好地定义、使用和学习条件，可以设计出更高效的解决方案。

此外，在本文中，我们在训练过程中并未对上下文中的通道进行监督，因此在通道之间可能存在冗余，这不利于充分利用高维上下文。在未来的工作中，我们将研究如何消除通道之间的冗余以最大化上下文的利用率。对于上下文生成，本文仅使用了单一参考帧。传统编解码器已经表明，使用多个参考帧能够显著提升性能。因此，如何设计基于多参考帧的条件编码框架是一个非常有前景的方向。此外，我们目前并未考虑重建质量的时间稳定性，这可以通过后处理或额外的训练监督（例如关于时间稳定性的损失函数）进一步提高。