用于零镜头视频对象分割的深度感知测试时训练

大家觉得有帮助记得关注和点赞！！！；此分享技术性比较强，关注之后可看全文！

1介绍

2相关工作

3预赛

4ZSVOS 的深度感知测试时训练

4.1培训时间培训

4.2视频测试时培训

5实验

5.1数据集和评估指标

5.2实现细节

5.3分析和消融研究

5.4与最先进的技术进行比较

6结论

抽象

零镜头视频对象分割（ZSVOS）旨在分割主要移动对象，而无需任何人工注释。主流解决方案主要集中在大规模视频数据集上学习单个模型，而这些模型很难推广到看不见的视频。在这项工作中，我们引入了一种测试时训练（TTT）策略来解决这个问题。我们的主要见解是强制模型在 TTT 过程中预测一致的深度。详细地说，我们首先训练一个网络来执行分割和深度预测任务。这可以通过我们专门设计的深度调制层来有效地学习。然后，对于 TTT 过程，通过预测不同数据增强下同一帧的一致深度图来更新模型。此外，我们还探讨了不同的 TTT 权重更新策略。我们的实证结果表明，基于动量的权重初始化和基于循环的训练方案导致了更稳定的改进。实验表明，所提方法在 ZSVOS 上取得了明显的改进。我们提出的视频 TTT 策略与最先进的 TTT 方法相比具有显着优势。我们的代码可在以下网址获得： DATTT。

1介绍

请参阅标题

图 1：我们的深度感知测试时培训的关键思想。在测试时训练期间，模型需要预测不同数据增强下同一视频帧的一致深度图（第 2 行）。该模型将逐步更新，并提供更精确的掩码预测（第 3 行）。

零镜头视频对象分割（ZSVOS）是计算机视觉中的一项基本任务，旨在准确分割视频中的主要移动对象。术语“零镜头”是指在推理过程中不提供人工指导，这与单次视频对象分割（OSVOS）不同，后者提供了第一帧的注释。由于该问题在视频理解中应用广泛，因此非常重要[24]、视频监控[15]、视频编辑[58,34]等。

然而，这项任务仍然具有挑战性，因为模型需要学习与类别无关的特征来检测移动的物体。尽管在最广泛使用的公共数据集（∼3.5K 视频），部署的模型在面对实际场景时通常会失败。上述问题可能归因于缺乏大规模训练集。但是，收集和注释大规模视频数据集的成本很高。作为一种替代解决方案，测试时训练（TTT）已成为一种很有前途的方法，这是这项工作的主要重点。TTT 包括对每个测试视频进行培训。因此，该模型有望自动适应新场景。

领先研究[39,22,11]在 TTT 上主要关注图像识别，并展示了精心设计的自监督目标函数使模型能够适应新的分布，从而实现对单个测试样本的改进拟合。然后将这些方法扩展到 OSVOS 的视频[1]和视频语义分割[47,49]，并被证明对异常天气情况（雪、雾、雨等）有效。与这些工作不同，我们在这项工作中的关键思想（见图 1）是利用视频 TTT 的深度信息。我们的动机来自于这样一个事实，即主要对象应该靠近相机，因此具有相对较小的深度，即深度图应包含用于分割主要移动对象的信息信号。

在这项研究中，我们为 ZSVOS 提出了一个名为深度感知测试时间训练（DATTT）的新框架。与其他视频 TTT 框架类似[1,47,49]，我们的 DATTT 是一个两阶段的训练框架。在第一阶段，我们学习一个模型，该模型共同预测移动对象的掩码以及整个图像的深度图。为了实现这一目标，该模型建立在常用的双流 ZSVOS 模型之上，并结合了一个深度解码器，该解码器利用图像特征来预测深度图。因此，该模型为每个任务提供了一个共享图像编码器、一个流编码器和不同的解码器头。我们还发现，这两个任务之间通过深度调制层的交互可以在执行 TTT 时获得更好的性能。在第二个 TTT 阶段，给定一个输入视频，该模型需要预测每帧在不同数据增强下的一致深度图。通过优化一致性损失，更新了模型的图像编码器部分，从而对蒙版头进行了自适应预测。请注意，第一阶段的深度监督来自单眼深度预测器[12,57,2]，因此它是自由的，但假定它是有噪声的。

在实验上，我们在五个广泛使用的 ZSVOS 数据集上评估了我们的 DATT：DAVIS-16[31]、FBMS[28], 长视频[20]、 MCL[17]和 SegTrackV2[19].我们的实证结果表明，第一阶段训练和 TTT 训练都受益于网络中引入的额外深度信息。这种改进在不同的深度预测器中是明显和一致的，所提出的深度调制层也为 TTT 提供了重要的性能增益。我们还探索了不同的 TTT 策略，最终发现基于动量的权重初始化和基于循环的训练方案导致了更一致的改进。在与竞争对手的 TTT 方法的公平比较方面[36,48,39,11]，我们的 DATTT 使 TTT 能够更稳定地改进，并设法实现显着更好的性能。尽管与最先进的 ZSVOS 方法截然不同，但我们的 DATTT 仍然提供有竞争力的性能，证明了在推理过程中进行 TTT 的有效性。

综上所述，我们的主要贡献如下：

•

我们介绍了用于零镜头视频对象分割（ZSVOS）的深度感知测试时训练（DATTT）。据我们所知，首次证明在一致的深度约束下执行 TTT 会带来显著的改进。
•

我们提出了一个深度调制层，它使深度预测头和掩码预测头之间能够交互，并已被证明对 TTT 过程有效。
•

与 ZSVOS 上最先进的方法相比，我们的 DATTT 实现了有竞争力的性能，证明了在推理过程中执行 TTT 的有效性。

2相关工作

零镜头视频对象分割。零镜头视频对象分割（ZSVOS）是一项旨在分割主要移动对象的任务，在推理过程中不需要任何注释。传统上，启发式算法（包括背景减法）[63,8]、对象建议[18,55]和点轨迹[3,27]通常用于处理 ZSVOS。随着深度学习的快速发展，神经网络已成为 ZSVOS 最流行的技术[50,42,62]. 为了利用视频序列中的时间信息，早期的作品[41,51,45]开发了基于递归神经网络（RNN）的模型，以利用连续帧之间的相关性。最近的研究[54,56,29,30,6]专注于整合运动信息，从而显著提高性能。现成的光流估计方法[37,40]用于提取运动提示，然后将其与双流模型中的外观信息相结合。例如，Yang et al. [54]提出一个用心的多模态协作网络，使用共注意力机制整合外观和运动信息。这种多模态特征融合抑制了误导性信息，并强调了相关的前景特征。由于表示所有像素运动信息的光流通常无法与主要对象很好地对齐，因此 Pei 等人。 [29]引入分层特征对齐网络，该网络使用不同的模块分层对齐外观和运动特征。

基于深度的对象分割。深度传感器获得的深度图为场景理解提供了有价值的几何见解。从 RGB 图像和深度图中提取的多模态特征在外观和空间位置方面提供了互补信息。深度图已被证明有利于显著目标检测[5,61,32,38,59,33,9]因为它在空间结构中提供判别信息。 Chen 等人。 [5]提出一个互补感知的融合模块来利用跨模态信息。 Zhao 等人。 [59]提出了一个对比度增强网络来桥接 RGB 特征和深度特征，并测量显著区域和非显著区域之间的对比度。 Liu 等人。 [21]通过空间注意力融合多模态信息。将深度信息作为输入的整合可能会阻碍实际应用。为了解决这个问题， Piao 等人。 [33]提出一个深度蒸馏器，在训练期间将深度知识传输到 RGB 流，并且只需要 RGB 输入进行测试。据我们所知，深度图在视频对象分割中的使用仍有待探索。

测试时训练。以前关于考试时训练的工作[43,44,48,36,39,22,11]已经证明，针对单个实例微调预训练模型可以更好地适应每个特定实例。 Wang 等人。 [48]最小化测试熵以适应归一化层。 Schneider 等人。 [36]通过从测试样本进行估计来替换归一化层的训练静态数据。 Sun 等人。 [39]开发一个包含主干、主头和辅助头的 Y 形模型。在测试过程中，他们通过使用辅助头预测旋转度来微调主干。 TTT-MAE 系列[11]使用掩码自动编码器重建测试图像，以使模型适应新的测试分布。测试时训练也用于一些一次性视频对象分割（OSVOS）方法[4,46,7].这些类型的方法进一步在带有注释的帧上重新训练预训练模型，然后在整个视频序列上对其进行测试。 Caelles 等人。 [4]提出了第一个基于在线培训的 OSVOS 方法。他们首先使用第一帧注释对视频上的预训练模型进行微调，然后使用新的权重测试整个视频序列。由于物体的外观会随着时间的推移而变化，Voigtlaender 等人。 [46]提出在线适应计划。对于每个帧，它们使用估计的掩码和阈值生成伪标签，以使模型适应当前帧。 Ci 等人。 [7]预扫描整个视频并生成伪标签，然后根据这些标签重新训练模型。部分作品[1,47]讨论一些现有的图像测试时训练方法，以处理具有人为腐败的具有挑战性的视频。并发工作[49]将 TTT-MAE 扩展到视频流。该模型从上一个模型初始化，并在一组可用帧上进行训练。

3预赛

测试时训练。考试时训练（TTT）[39,22,11]旨在使预训练模型适应新的测试分布，具有精心设计的目标函数，无需监督。常用的 TTT 网络包括共享编码器ℰ和两个用于主要任务的解码器𝒟m⁢一个⁢我⁢n和自我监督任务𝒟s⁢s⁢l. 典型的 TTT 框架涉及两个阶段的训练。在第一阶段，使用 main loss 训练网络ℒ主要和自我监督的损失ℒSSL协议:

分钟ℰ,𝒟m⁢一个⁢我⁢n,𝒟s⁢s⁢l⁡ℒ主要+λ⁢ℒSSL协议,

(1)

哪里λ是平衡这两个组成部分的超参数。

在第二阶段，称为测试时训练（TTT），对于每个单独的输入，编码器ℰ将根据自我监督目标进行微调：分钟ℰ⁡ℒSSL协议.

另一个自然的选择是同时微调𝒟s⁢s⁢l.从经验上讲，仅微调之间的差异可以忽略不计ℰ并微调额外的𝒟s⁢s⁢l [39].

零镜头视频对象分割。零镜头视频对象分割（ZSVOS）旨在定位视频中的移动对象，在推理过程中无需任何指导。当前的 ZSVOS 型号[35,29,6]由用于视觉特征提取的图像编码器、用于运动信息的流编码器和用于获取掩码预测的解码器组成。给定视频帧及其光流图，图像和流编码器分别提取多尺度图像和流特征。图像和流特征的聚合在解码器中用于解码对象掩码。真值对象掩码用于通过二进制交叉熵损失来监督模型，该损失作为主要损失ℒ主要如果考虑在 ZSVOS 上使用 TTT。

请参阅标题

图 2：拟议的深度感知测试时训练概述。我们在常用的双流 ZSVOS 架构中增加了深度解码器，以学习 3D 知识。该模型首先在大规模数据集上进行训练，用于对象分割和深度估计。然后，对于每个测试视频，我们对帧采用基于光度失真的数据增强。预测的深度图之间的误差是向后更新的，以更新图像编码器。最后，应用新模型来推断对象。

4ZSVOS 的深度感知测试时训练

在本节中，我们将介绍针对 ZSVOS 的深度感知测试时训练（DATTT）。我们的整个框架如图 2 所示。我们的 DATTT 是按照 TTT-Rot 设计的[39]和 TTT-MAE[11].在第一阶段训练中，即训练时训练，DATTT 在大规模数据集上进行训练，共同执行主要运动目标分割和深度估计两项任务，由主任务解码器实现𝒟m和深度解码器𝒟d分别。在 TTT 期间，模型需要在两个增强样本之间生成一致的深度图。该错误用于更新图像编码器ℰv更好的理解当前场景，因此有望给出更好的蒙版预测。

我们从第 4.1 节中的训练时间训练开始，介绍我们的第一阶段训练。然后，我们在 Section 4.2 中详细介绍了视频上的 TTT。

4.1培训时间培训

目标函数。给定一个输入帧v和流f，我们首先通过图像编码器提取它们的特征ℰv和流量编码器ℰf，如图 2 （a）所示。聚合编码的图像和流特征，以预测通过掩码解码器的主要移动对象𝒟m.在这项工作中，我们利用简单的求和作为图像和流特征的聚合。深度解码器𝒟d使用图像特征估计深度图。我们使用通过现成的单目深度估计方法获得的深度图[12,57,2]作为伪真实d.不同单眼深度估计方法的影响在 5.3 节中提供。

将 ground-truth 掩码表示为m.总目标函数可以表述为：

ℒ公元前(𝒟m(ℰv(v)+ℰf(f)),)+λℒ深度(𝒟d(ℰv(v)),d)

(2)

哪里λ是平衡两个损失的超参数。ℒ深度是标准的 scale-invariant log loss[10]对于深度估计跟踪[2].

Depth-aware Modulation Layer（深度感知调制层）。我们介绍了深度感知调制层，如图 3 所示。基本思路是使掩码解码器中的特征能够从深度解码器中的特征接收信息。

将深度解码器和掩码解码器中特征的第 i 个尺度表示为𝒟d我和𝒟m我深度感知调制层分别表示为ℳ用于更新𝒟m我:

𝒟m我=ℳ⁢(𝒟m我,𝒟d我)

(3)

哪里ℳ由标准运算符组成，如 MLP、Relu、concatenation、dot product、summation，如图 3 所示。

请参阅标题

图 3：建议的深度感知调制层。在每个比例上我，我们通过深度特征生成调制参数𝒟d我和对象功能𝒟m我调制𝒟m我.

4.2视频测试时培训

深度感知 TTT。给定一个测试视频T框架V={vt|t∈[1,2,…,T]}，我们进行 TTT 来更新图像编码器ℰv通过在两个数据增强下优化单个帧之间的一致深度图（图 2 （b））。更新后的图像编码器ℰv预计对掩码预测有益（图 2 （c））。

准确地说，对于第 i 帧v我，我们获得两个增强图像v我1和v我2通过应用不同的数据增强v我，其中包括：随机水平翻转、调整大小、裁剪和光度扭曲。然后对于 TTT，我们寻求优化：

ℒ深度⁢(𝒟d⁢(ℰv⁢(v我1)),𝒟d⁢(ℰv⁢(v我2)))

(4)

请注意，我们保留了𝒟d冻结，并且仅微调图像编码器ℰv，这与[39].我们还发现，培训𝒟d和ℰv团结起来不能带来改善。

朴素 TTT 策略（TTT-N）。对于每个视频，我们为每个帧训练自己的图像编码器。这是 Azimi 等人的一种天真图像测试时训练策略。 [1]（图 4 （b））。它将视频视为单个帧，并通过使用预先训练的权重初始化模型来调整每个帧。尽管模型在测试期间适应了每一帧，但此策略不会从视频中的可用帧中获得额外好处。

请参阅标题

图 4：第 4.2 节中描述的 ZSVOS 的不同框架概览。（a）以前的 ZSVOS 方法直接应用训练好的模型来推断测试视频。（b）基于图像的测试时训练方法（TTT-N）在每个单独的帧上微调模型。（c）通过基于动量的权重初始化（TTT-MWI）进行的视频测试时训练基于过去的模型训练模型。（d）通过循环播放视频进行视频测试时训练（TTT-LTV）受益于全局信息。

但是，视频由一系列高度相关的图像组成。视频中的时空对应可能会促进视频数据中的测试时训练。因此，我们介绍了两种有效的视频 TTT 策略：基于动量的权重初始化（TTT-MWI）和循环视频（TTT-LTV）。请注意，Section 5.3 中提供了不同策略的研究。

基于动量的权重初始化（TTT-MWI）。由于视频中连续帧中的场景高度相似，因此在上一帧中微调的模型比在当前帧中优化时预训练的模型更适合初始化。因此，我们按照时间顺序将模型调整为视频，其中图像编码器的参数ℰvt第 T 帧vt由之前的ℰvt−1而不是原始权重ℰv，这可以从图 4 （c）中看出。通过这种方式，模型由更好的权重初始化，该权重已根据过去的帧适应当前场景。同样的策略在相关工作中也被证明是有效的[47]. 但是，他们只讨论了在线视频流中的 TTT，这里我们进一步探讨了离线视频中的 TTT。

循环播放视频（TTT-LTV）。该模型在联机设置中的多个 epoch 的每个到达帧上进行训练。该模型受益于通过基于动量的权重初始化保留过去帧中的信息，因为过去的信息很有帮助。在某些离线设置（如视频编辑）中，整个视频都可用。要在整个视频中利用更多信息，我们建议通过循环播放视频而不是逐帧来执行视频 TTT。该模型不是在当前帧中训练几个 epoch，然后移动到下一帧，而是在每一帧调整一次，并在视频中循环几个 epoch（图 4 （d））。场景知识是逐个周期积累的，然后作为当前帧模型的过去和未来知识，以便在全局视图中进行训练。

5实验

5.1数据集和评估指标

我们在五个广泛使用的数据集上评估了所提出的方法，包括 DAVIS-16[31]、FBMS[28], 长视频[20]、 MCL[17]和 SegTrackV2[19]. 戴维斯-16[31]包含总共 50 个视频，每帧带有像素级注释，包括 30 个用于训练的视频和 20 个用于验证的视频。 FBMS[28]由 29 个培训视频和 30 个测试视频组成，只有 720 个带注释的帧。长视频[20]包含 3 个长视频，每个视频超过 1500 帧。内侧副韧带[17]由 9 个低分辨率视频组成。分段轨道V2[20]涉及 14 个快速运动和物体变形的视频。 Youtube-VOS 频道[53]用于训练模型，该模型是一个包含 3471 个视频的大规模数据集。区域相似性𝒥和边界精度ℱ报告以供评估。𝒥定义为：

𝒥=|mg⁢t∩mp⁢r⁢e⁢dmg⁢t∪mp⁢r⁢e⁢d|,

(5)

哪里mg⁢t和mp⁢r⁢e⁢d分别是 Ground Truth Mask 和 Predicted Mask。ℱ可以计算为：

ℱ=2×p×rp+r,

(6)

哪里p=|mg⁢t∩mp⁢r⁢e⁢dmp⁢r⁢e⁢d|和r=|mg⁢t∩mp⁢r⁢e⁢dmg⁢t|.

5.2实现细节

所有实验均在单个 NVIDIA A40 GPU 上进行。随机水平翻转、调整大小、裁剪和光度失真用于数据增强。输入图像的大小将调整为512×512. 该模型在 Youtube-VOS 数据集上预训练了 10 个 epoch，并将λ=0.1.的消融λ提供在附录 E 节中。在测试时训练期间，我们在每个测试视频中训练模型 10 个 epoch。小批量大小设置为 8。该模型由 Adam 优化器优化，学习率为6⁢e−5和1⁢e−5用于训练时训练和测试时训练。我们选择 Mit-b1[52]和 Swin-Tiny[23]作为 Image Encoder 和 Flow Encoder。深度解码器和分段解码器是通过 SegFormer 中的轻量级解码器实现的[52]. 筏[40]用于提取光流图。等深度 2[12]、LiteMono[57]和 ZoeDepth[2]用于获取深度图。在默认设置中，我们使用 Mit-b1 作为主干，MonoDepth2 作为深度提取器，TTT-LTV 作为 TTT 策略。

骨干	𝒟d	国防部。	TTT	戴维斯-16	FBMS	长。
米特-b1 [52]	-	-	-	75.9	75.1	63.9
	✓	-	-	77.0	77.5	62.8
	✓	-	✓	77.2	78.0	70.5
	✓	✓	-	77.1	73.7	65.2
	✓	✓	✓	77.5	76.9	73.1
斯温-T [23]	-	-	-	77.8	74.1	65.7
	✓	-	-	78.7	74.5	67.0
	✓	-	✓	78.8	75.0	72.1
	✓	✓	-	79.0	76.6	63.5
	✓	✓	✓	79.2	79.2	75.9

表 1：DAVIS-16 上提出的深度感知解码器的消融研究[31]、FBMS[28]和长视频[20]数据。 𝒥报告以供比较。将深度作为额外的监督（𝒟d）提高性能，并且调制层（Mod.）在 TTT 期间获得更显著的改进。

深度提取器	TTT	戴维斯-16	FBMS	长。
无深度	-	75.9	75.1	63.9
单深度 2[12]	-	77.1	73.7	65.2
单深度 2[12]	✓	+0.4	+3.2	+7.9
LiteMono 系列[57]	-	76.8	79.0	68.1
LiteMono 系列[57]	✓	+2.0	+1.5	+6.3
ZoeDepth 系列[2]	-	79.9	76.4	64.0
ZoeDepth 系列[2]	✓	+0.5	+4.7	+9.5

表 2：在 DAVIS-16 上使用不同深度估计方法的消融研究[31]、FBMS[28]和长视频[20]数据。 𝒥报告以供比较。DATTT 使用不同的深度估计方法显示出一致的改进。

骨干	TTT 计划	戴维斯-16		FBMS		长。		内侧副韧带		STV2 抗体
骨干	TTT 计划	𝒥	ℱ	𝒥	ℱ	𝒥	ℱ	𝒥	ℱ	𝒥	ℱ
米特-b1[52]	-	77.1	78.4	73.7	75.8	65.2	68.0	53.5	66.2	61.5	69.2
	TTT-N 型	+0.3	+0.3	+0.1	+0.3	+1.3	+1.5	+1.9	+1.5	+1.0	+1.2
	TTT-MWI	+0.4	+0.5	+2.3	+2.1	+7.2	+7.5	+7.6	+6.9	+2.0	+4.0
	TTT-LTV	+0.4	+0.4	+3.2	+3.1	+7.9	+7.7	+8.4	+7.8	+4.4	+4.3
斯温-T[23]	-	79.0	80.3	76.6	79.3	63.5	70.0	54.1	68.2	64.0	70.7
	TTT-N 型	+0.1	+0.2	+1.2	+1.0	+2.6	+1.7	+1.3	+1.4	+0.4	+0.4
	TTT-MWI	+0.3	+0.4	+2.2	+1.7	+7.6	+5.7	+8.1	+6.0	+1.4	+0.6
	TTT-LTV	+0.2	+0.4	+2.6	+2.0	+12.4	+9.2	+12.0	+8.1	+1.5	+0.8

表 3：DAVIS-16 上拟议的测试时训练方案的消融研究[31]、FBMS[28]、长视频[20]、 MCL[17]和 SegTrackV2[19]数据。所提出的策略对于视频中的测试时训练是有效的。

请参阅标题

图 5：性能随 FBMS 上的训练 epoch 数量而变化[28]、长视频[20]、 MCL[17]数据。所提出的策略（TTT-LTV 在第 4.2 节中介绍）需要更少的时间让模型适应三个数据集上的目标视频并取得更好的结果。

5.3分析和消融研究

架构设计和深度质量的影响。我们首先验证了所提出的深度感知解码器。基准设置为常用的双流模型。如表 1 所示，在两个不同的主干下，我们的方法优于基线。结果很直观，因为深度信息有利于分割主对象。此外，深度调制层在训练时训练和测试时训练中都更有效。这可以归因于更新的深度特征，进一步促进了通过解码器中的特征调制进行对象分割。

我们还试验了通过不同深度估计方法获得的深度图作为监督。表 2 显示，所提出的 DATTT 在不同方法中获得了一致的改进。它表明，利用给定视频中的 3D 信息来微调模型对 ZSVOS 是有效的。

考试时训练策略。我们讨论了 4.2 节中提出的不同考试时训练方案。如表 3 所示，与直接在视频上进行测试相比，他们在多个数据集中获得了一致的改进，这证明了深度感知测试时训练在 ZSVOS 中是有效的。然而，在不同策略中，性能差异很大。首先，将视频视为一个整体而不是单个帧可以大大提高视频测试时训练的性能。利用前一帧的参数而不将参数重置为预训练参数，可以使模型记住过去的场景。由于时间平滑性，更容易找到主对象。此外，在 offline 设置中使模型对视频进行迭代训练也很有用。随着迭代的进行，过去和将来的信息都可用。视频前面的帧可以在窥探未来信息后进一步细化。

训练纪元。TTT 的一个关键挑战是训练所需的额外时间。我们研究了训练 epoch 对性能的影响。结果如图 5 所示。随着训练 epoch 数量的增加，TTT-LTV 与其他方案（TTT-N 和 TTT-MWI）之间的差异变得明显，这表明所提出的方法需要更少的时间来适应给定的视频。此外，我们观察到，不同数据集的最佳训练 epoch 数不同。但是，合适的纪元（例如 10）在不同数据集中会产生令人满意的结果。我们在图 6 中的视频序列中展示了通过我们的方法获得的结果。请注意，提供了更多视觉结果在附录中，图 G。最初，预先训练的模型在检测视频中行走的人方面的准确性有限。当我们应用基于深度的 TTT 时，我们观察到后续结果的逐渐改善。

请参阅标题

图 6：所提出的方法的定性结果。结果中的背景会变暗，以便更好地可视化。预训练模型获得的结果不太准确，并且随着 TTT 的进行而变得越来越好。

骨干	方法	TTT	戴维斯-16		FBMS		长。		内侧副韧带		STV2 抗体
骨干	方法	TTT	𝒥	ℱ	𝒥	ℱ	𝒥	ℱ	𝒥	ℱ	𝒥	ℱ
米特-b1[52]	基线	-	75.9	77.5	75.1	76.5	63.9	67.5	57.3	70.8	61.5	70.4
	帐篷[48]	✓	−0.5	−0.4	+0.4	+0.4	+0.6	+0.5	+1.0	+0.4	−0.3	−0.4
	亿[36]	✓	+0.3	+0.3	+0.9	+1.0	+0.9	+0.6	+1.4	+1.3	+0.3	+0.3
	TTT-腐蚀[39]	-	75.3	76.2	75.4	77.2	59.1	62.8	57.7	70.5	66.4	73.3
		✓	−0.4	−0.1	+0.4	+0.5	+2.6	+1.7	+4.0	+3.8	−2.4	−1.6
	TTT-MAE 系列[11]	-	73.5	74.1	74.6	75.7	64.4	67.5	55.7	66.8	62.2	70.2
		✓	+0.4	+0.3	+0.5	+0.1	+0.9	+0.1	−1.5	−0.9	−0.7	−0.4
	我们	-	77.1	78.4	73.7	75.8	65.2	68.0	53.5	66.2	61.5	69.2
		✓	+0.4	+0.4	+3.2	+3.1	+7.9	+7.7	+8.4	+7.8	+4.4	+4.3
斯温-T[23]	基线	-	77.8	79.0	74.1	77.7	65.7	71.2	47.3	61.2	62.6	70.2
	帐篷[48]	✓	−0.4	−0.5	+0.3	+0.3	+0.3	+0.3	+0.6	+0.5	−0.5	−0.7
	亿[36]	✓	−0.2	−0.3	+0.6	+0.7	+0.6	+0.6	+1.0	+0.9	+0.4	+0.2
	TTT-腐蚀[39]	-	78.9	79.9	75.5	78.5	66.7	70.6	57.0	69.7	63.3	70.4
		✓	+0.7	+0.6	−1.0	−0.1	−1.8	−2.3	+0.6	+0.4	+0.4	+0.3
	TTT-MAE 系列[11]	-	77.0	77.9	74.6	77.2	65.3	69.2	52.8	65.5	60.3	67.9
		✓	−0.1	−0.1	−0.3	−0.1	−0.8	−0.6	−0.9	−0.8	−0.6	−0.4
	我们	-	79.0	80.3	76.6	79.3	63.5	70.0	54.1	68.2	64.0	70.7
		✓	+0.2	+0.4	+2.6	+2.0	+12.4	+9.2	+12.0	+8.1	+1.5	+0.8

表 4：与 DAVIS-16 上最先进的测试时训练方法的比较[31]、FBMS[28]、长视频[20]、 MCL[17]和 SegTrackV2[19]数据。结果 TTT 后丢弃的 TTT 被掩盖为红色。最显著的改进标记为粗体。所提方法在不同的数据集中获得了稳定的改进。

		3DCSEG [26]	AGNN [50]	MATNet [60]	HFAN [29]	HCPN [30]	MED-VT [16]	Ours	Ours
		3D ResNet-152 [13]	Resnet-101 [14]	Resnet-101 [14]	Mit-b1 [52]	Resnet-101 [14]	Video-Swin-B [25]	Mit-b1 [52]	Swin-T [23]
DAVIS-16	𝒥	84.3	80.7	82.4	86.2	85.8	85.9	86.0	85.8
DAVIS-16	ℱ	84.7	79.1	80.7	87.1	85.4	86.6	87.9	88.5
FBMS	𝒥	76.2	-	76.1	76.1	78.3	-	74.9	78.8
Long.	𝒥	34.2	68.3	66.4	74.9	-	-	75.6	77.3
Long.	ℱ	33.1	68.6	69.3	76.1	-	-	77.1	79.9

表 5：与 DAVIS-16 上最先进的 ZSVOS 方法的比较[31]、FBMS[28]和长视频[20]数据。所提出的方法优于其他直接测试视频的 ZSVOS 方法。

5.4与最先进的技术进行比较

我们首先与表 4 中的四种先前的测试时训练（TTT）方法进行比较，包括 TENT[48]亿[36]、TTT-Rot[39]和 TTT-MAE[11]. 具体来说，我们将 TTT 直接应用于不包含辅助头（TENT 和 BN）的方法的基线模型。对于使用辅助头的方法（TTT-Rot、TTT-MAE 和我们的），我们训练相应的基线模型，然后执行 TTT。所有这些方法都遵循我们如上所述设计的 TTT 策略。

据观察，这些方法并没有对 ZSVOS 产生实质性的改进。前作[47]获得类似的结果，其中这些方法在具有挑战性的天气条件（如雨或雪）中表现出有希望的性能，但在典型天气场景（如晴天）中未能产生显著改善。根据他们的分析，基线模型通过对典型天气数据进行训练而取得了令人满意的性能，从而限制了其进一步增强的潜力。相反，我们将此限制归因于目标数据集中没有合成损坏，从而导致训练和测试数据之间的微小域偏移。严重的领域偏移使模型很容易适应新样本，甚至仅通过更新归一化统计数据。如果没有明确的领域转移，特定于任务的线索的存在对于有效指导 TTT 变得至关重要。在 ZSVOS 的上下文中，从 3D 信息得出的线索被证明是有利的，这解释了我们提出的方法在应用于测试数据时表现出的稳定改进。

然后，在基于辅助头部的 TTT 方法中，添加辅助任务并不能持续提高基线性能。例如，当共享图像编码器需要通过图像重建来学习高级语义表示时，它通常会破坏其对对象分割至关重要的低级特征。在旋转预测中观察到的成功可归因于不同程度的旋转引入的额外数据增强。当用于 ZSVOS 的 TTT 时，这些辅助任务都表现出有限的影响，而我们基于深度的方法显示出显着的改进。

我们还将所提出的方法与 SOTA ZSVOS 方法进行了比较[26,50,60,29,30,16].这些方法通常在大规模数据集上进行预训练，然后在 DAVIS-16 训练集上进行微调。为了公平地进行比较，我们在 DAVIS-16 训练集上对在 Youtube-VOS 上预训练的模型进行了微调，并在 FBMS 和长视频数据集上执行 TTT。如表 5 所示，我们的方法在 3 个数据集中的 2 个数据集中获得了最佳性能。请注意，我们的方法不涉及特征融合、信息传播、注意力机制等花里胡哨的模块。，表明执行 TTT 对 ZSVOS 有效。

6结论

在这项工作中，我们介绍了 ZSVOS 的深度感知测试时间训练，它允许预训练模型更好地泛化到看不见的场景。我们提出了一个联合学习框架，同时解决对象分割和深度估计问题。在推理过程中，不同数据增强下同一帧的一致深度作为更新模型的标准。此外，还探索了不同的 TTT 策略。实验结果表明，与 SOTA TTT 方法相比，我们提出的方法的有效性。与其他 ZSVOS 方法相比，我们还实现了有竞争力的性能。