【有啥问啥】DINO：一种改进的去噪锚框的端到端目标检测器

DINO

DINO：一种改进的去噪锚框的端到端目标检测器

在目标检测领域，DINO（DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection）是一种创新的端到端目标检测模型，旨在解决传统目标检测算法中的一些关键问题，如收敛速度慢、训练时间长以及对小物体的处理困难等。本文将详细介绍DINO的原理、技术改进、实验结果以及其在计算机视觉任务中的卓越表现。

传送门链接: 什么是端到端（End-to-End）？

一、引言

目标检测是计算机视觉中的基本任务，旨在识别图像中的物体并确定其位置和类别。传统基于卷积的目标检测算法（如Faster R-CNN等）虽然取得了显著进展，但它们在性能优化上高度依赖手工设计的特征，例如锚点生成和非最大抑制（NMS），这导致在复杂场景和小物体检测方面表现不佳。

近年来，基于Transformer的目标检测算法如DETR（Detection Transformer）为目标检测领域带来了新的思路。DETR通过消除手工设计组件，实现了与经典检测器相当的性能，但其收敛速度慢和训练时间长等问题仍然限制了其广泛应用。为了解决这些问题，研究者们提出了多种改进方法，其中DINO便是其中的佼佼者。

传送门链接: 探索DETR：基于Transformer的目标检测框架

二、DINO的原理与技术改进

DINO是在Deformable DETR、DAB-DETR和DN-DETR的基础上进一步改进而来的。它融合了这些模型的多种策略，并提出了以下三种新的方法：

对比去噪训练（Contrastive DeNoising Training）

DN-DETR提出了去噪训练以提升模型的收敛速度，但存在两个主要问题：重复预测和无法有效拒绝远离真实目标的预测。为解决这些问题，DINO引入了显式的难分负样本，将其标记为“no object”，使模型能够更有效地拒绝无用锚框。

具体来说，DINO通过在真实锚框和标签上增加噪声生成正负样本。所有噪声等级小于λ1的被视为正样本，而所有等级大于λ1但小于λ2的则视为负样本。训练时，正样本使用重构损失，负样本则希望被分类为“no object”。这种对比去噪训练方法有助于避免模型对相同目标的重复输出，并显著提升模型性能。

混合查询选择方法（Mixed Query Selection）

DINO的解码器查询初始化采用了混合查询选择方法。在DETR和Deformable DETR中，解码器的内容查询和位置查询初始化方式各有不同。DETR的内容查询初始化为0，位置查询则使用nn.Embedding随机初始化；而Deformable DETR的查询均由编码器输出导出。

DINO结合了这两种方法，将编码器输出作为位置查询的初始化，同时保持内容查询的随机初始化。这种混合方法结合了两者的优点，能够更好地初始化查询，提高模型的整体性能。

向前看两层的锚框更新方法（Look Forward Twice）

在Deformable DETR中，解码器层预测锚框的偏移量并逐层更新，但每层的预测结果仅影响当前层的参数更新。为利用后续层的精细框信息帮助优化前两层的参数，DINO提出了一种新的向前看两层的锚框更新方法。

具体而言，DINO允许当前层的预测结果影响前两层的参数更新。这一策略使得模型能够更好地利用后续层的梯度信息来优化早期层的参数，从而显著提高检测准确性。

三、实验设计与结果

DINO在COCO数据集上进行了大量实验，使用ResNet-50作为主干网络，并在多个尺度上提取特征。评估指标采用平均精度（AP），以系统评估不同IoU阈值下的检测性能。

实验结果显示，DINO在24个epoch中实现了49.4AP和51.3AP，分别比DN-DETR提高了+6.0AP和+2.7AP，证明了其有效性。此外，DINO在模型大小和数据大小上均能良好扩展。在使用SwinL主干对Objects365数据集进行预训练后，DINO在COCO val2017（63.2AP）和test-dev（63.3AP）基准测试中取得了最佳结果，进一步印证了其优越性能和可扩展性。