YOLOv12在精度上超越了所有流行的实时目标检测器,同时保持了具有竞争力的速度。例如,YOLOv12-N在T4 GPU上实现了40.6%的mAP,推理延迟为1.64毫秒,优于先进的YOLOv10-N / YOLOv11-N,mAP分别提升了2.1%/1.2%,且速度相当。这一优势在其他模型规模上也得以延续。YOLOv12还超越了改进DETR的端到端实时检测器,如RT-DETR / RTDETRv2:YOLOv12-S在运行速度上比RT-DETR-R18 / RTDETRv2 R18快42%,仅使用了36%的计算量和45%的参数。更多对比详见图1。


图1. 与其他流行方法在延迟-精度(左)和FLOPs-精度(右)权衡方面的比较。


实时目标检测因其低延迟特性而一直备受关注,提供了显著的实用性[4, 17, 24, 28]。其中,YOLO系列[3, 24, 28, 29, 32, 45–47, 53, 57, 58]在延迟与精度之间有效建立了最佳平衡,从而主导了这一领域。尽管YOLO的改进主要集中在损失函数[8, 35, 43, 44, 48, 67, 68]、标签分配[22, 23, 34, 59, 69]等方面,但网络架构设计仍然是关键的研究重点[24, 28, 32, 57, 58]。尽管以注意力为核心的视觉Transformer(ViT)架构已被证明具有更强的建模能力,即使在小模型中也是如此[20, 21, 25, 50],但大多数架构设计仍然主要集中于CNN。

造成这种情况的主要原因在于注意力机制的效率低下,这主要来自两个因素:二次计算复杂度和注意力机制的低效内存访问操作(后者是FlashAttention [13, 14] 主要解决的问题)。因此,在相似的计算预算下,基于CNN的架构比基于注意力的架构性能高出约3倍 [38],这极大地限制了注意力机制在YOLO系统中的采用,因为YOLO系统对高推理速度有严格要求。

本文旨在解决这些挑战,并进一步构建了一个以注意力为中心的YOLO框架,即YOLOv12。我们引入了三项关键改进。首先,我们提出了一种简单而高效的区域注意力模块(A2),该模块在保持大感受野的同时,以非常简单的方式降低了注意力的计算复杂度,从而提高了速度。其次,我们引入了残差高效层聚合网络(R-ELAN)以解决注意力引入的优化挑战(主要是大规模模型)。R-ELAN在原始ELAN [57]的基础上引入了两项改进:(i)采用缩放技术的块级残差设计;(ii)重新设计的特征聚合方法。第三,我们在传统注意力之外进行了一些架构改进,以适应YOLO系统。我们升级了传统的以注意力为中心的架构,包括:引入FlashAttention以克服注意力的内存访问问题,移除位置编码等设计以使模型快速且简洁,将MLP比率从4调整为1.2以平衡注意力与前馈网络之间的计算,从而获得更好的性能,减少堆叠块的深度以促进优化,并尽可能利用卷积算子以发挥其计算效率。

基于上述设计,我们开发了一个包含5种模型规模的新系列实时检测器:YOLOv12-N、S、M、L和X。我们在标准目标检测基准上进行了广泛的实验,遵循YOLOv11 [28]的方法,未使用任何额外技巧,结果表明YOLOv12在这些规模上相较于之前流行的模型,在延迟-精度和FLOPs-精度权衡方面提供了显著的改进,如图1所示。例如,YOLOv12-N实现了40.6%的mAP,比YOLOv10-N [53]高出2.1%的mAP,同时保持了更快的推理速度;与YOLOv11-N [28]相比,mAP高出1.2%,速度相当。这一优势在其他规模的模型中也保持一致。与RT-DETR-R18 [66] / RT-DETRv2R18 [40]相比,YOLOv12-S的mAP分别高出1.5%/0.1%,同时延迟速度提升了42%/42%,仅需它们36%/36%的计算量和45%/45%的参数。




实时目标检测器因其重要的实用价值一直备受社区关注。YOLO系列[3, 9, 24, 28, 29, 32, 45–47, 53, 54, 57, 58]已成为实时目标检测的领先框架。早期的YOLO系统[45–47]从模型设计的角度为YOLO系列奠定了基础。YOLOv4[3]和YOLOv5[29]在框架中加入了CSPNet[55]、数据增强和多尺度特征。YOLOv6[32]进一步通过BiC和SimCSPSPPF模块优化了主干网络和颈部结构,并引入了锚点辅助训练。YOLOv7[57]引入了EELAN[56](高效层聚合网络)以改善梯度流动,并采用了多种免费技巧,而YOLOv8[24]则集成了高效的C2f模块以增强特征提取能力。在最近的迭代中,YOLOv9[58]引入了GELAN进行架构优化和PGI以提升训练效果,而YOLOv10[53]则通过双分配的无NMS训练实现了效率提升。YOLOv11[28]通过采用C3K2模块(GELAN[58]的一种变体)和检测头中的轻量级深度可分离卷积,进一步降低了延迟并提高了准确性。最近,一种端到端的目标检测方法RT-DETR[66]通过设计高效的编码器和不确定性最小的查询选择机制,改进了传统的端到端检测器[7, 33, 37, 42, 71],以满足实时需求。RTDETRv2[40]进一步通过免费技巧增强了其性能。与以往的YOLO系列不同,本研究旨在构建一个以注意力为中心的YOLO框架,以利用注意力机制的优势。


降低全局自注意力的计算成本对于在下游任务中有效应用视觉Transformer至关重要。PVT [61] 通过多分辨率阶段和下采样特征来解决这一问题。Swin Transformer [39] 将自注意力限制在局部窗口内,并通过调整窗口划分方式来连接非重叠窗口,从而在通信需求与内存和计算需求之间取得平衡。其他方法,如轴向自注意力 [26] 和十字交叉注意力 [27],在水平和垂直窗口内计算注意力。CSWin Transformer [16] 在此基础上引入了十字形窗口自注意力,并行计算沿水平和垂直条纹的注意力。此外,[12, 64] 等工作中建立了局部-全局关系,通过减少对全局自注意力的依赖来提高效率。Fast-iTPN [50] 通过令牌迁移和令牌聚集机制提高了下游任务的推理速度。一些方法 [31, 49, 60, 62] 使用线性注意力来降低注意力的复杂度。尽管基于Mamba的视觉模型 [38, 70] 旨在实现线性复杂度,但它们仍未达到实时速度 [38]。FlashAttention [13, 14] 识别出导致注意力计算效率低下的高带宽内存瓶颈,并通过I/O优化来解决这些问题,减少内存访问以提高计算效率。在本研究中,我们摒弃了复杂的设计,提出了一种简单的区域注意力机制来降低注意力的复杂度。此外,我们采用FlashAttention来克服注意力机制固有的内存访问问题 [13, 14]。



3.1 效率分析

注意力机制虽然在捕捉全局依赖关系和促进自然语言处理[5, 15]及计算机视觉[19, 39]等任务方面非常有效,但其本质上比卷积神经网络(CNN)速度更慢。造成这种速度差异的主要因素有两个。


此外,另一个重要因素是,大多数基于注意力的视觉Transformer由于其复杂的设计(例如,Swin Transformer中的窗口划分/反转[39])以及额外模块的引入(例如,位置编码),逐渐累积了速度开销,导致整体速度相比CNN架构较慢[38]。在本文中,设计模块采用了简洁的操作来实现注意力机制,最大限度地确保了效率。

计算。其次,在注意力计算过程中,内存访问模式相比卷积神经网络(CNN)效率较低[13, 14]。具体来说,在自注意力机制中,中间映射如注意力映射(QKT)和softmax映射(L × L)需要从高速GPU SRAM(实际计算位置)存储到高带宽GPU内存(HBM),并在后续计算中重新读取,而前者的读写速度是后者的10倍以上,因此导致了显著的内存访问开销和增加的时钟时间1。此外,注意力机制中的不规则内存访问模式相比CNN引入了进一步的延迟,CNN利用结构化和局部化的内存访问。CNN受益于空间受限的卷积核,由于其固定的感受野和滑动窗口操作,能够实现高效的内存缓存和减少延迟。

这两个因素,即二次计算复杂度和低效的内存访问,共同导致注意力机制比卷积神经网络(CNN)更慢,特别是在实时或资源受限的场景中。解决这些限制已成为一个关键的研究领域,诸如稀疏注意力机制和内存高效近似(例如Linformer [60]或Performer [11])等方法旨在缓解二次扩展问题。

3.2 区域注意力

一种降低普通注意力计算成本的简单方法是使用线性注意力机制 [49, 60],它将普通注意力的复杂度从二次降低到线性。对于一个维度为 ( n , h , d ) (n, h, d) (n,h,d) 的视觉特征 f f f,其中 n n n 是 token 的数量, h h h 是头的数量, d d d 是头的大小,线性注意力将复杂度从 2 n 2 h d 2n²hd 2n2hd 降低到 2 n h d 2 2nhd² 2nhd2,由于 n > d,从而减少了计算成本。然而,线性注意力存在全局依赖退化 [30]、不稳定性 [11] 和分布敏感性 [63] 的问题。此外,由于低秩瓶颈 [2, 10],当应用于输入分辨率为 640 × 640 的 YOLO 时,其速度优势有限。

一种有效降低复杂度的替代方法是局部注意力机制(例如,Shift窗口[39]、交叉注意力[27]和轴向注意力[16]),如图2所示,它将全局注意力转化为局部注意力,从而降低计算成本。然而,将特征图划分为窗口可能会引入额外开销或缩小感受野,影响速度和准确性。在本研究中,我们提出了一种简单而高效的区域注意力模块。如图2所示,分辨率为 ( H , W ) (H, W) (H,W)的特征图被划分为l个大小为 ( H / l , W ) (H/l, W) (H/l,W) ( H , W / l ) (H, W/l) (H,W/l)的片段。这消除了显式的窗口划分,仅需简单的重塑操作,从而实现了更快的速度。我们经验性地将l的默认值设为4,将感受野缩小到原来的1/4,但仍保持了较大的感受野。通过这种方法,注意力机制的计算成本从 2 n 2 h d 2n²hd 2n2hd降低到 1 / 2 n 2 h d 1/2n²hd 1/2n2hd。我们表明,尽管复杂度为 n 2 n² n2,当 n n n固定为640时(如果输入分辨率增加, n n n也会增加),这仍然足够高效,能够满足YOLO系统的实时需求。有趣的是,我们发现这种修改对性能的影响很小,但显著提高了速度。
图2. 代表性局部注意力机制与我们的区域注意力的比较。区域注意力采用最直接的等分方式,将特征图垂直或水平划分为 l l l个区域(默认值为4)。这种方法在避免复杂操作的同时,确保了较大的感受野,从而实现了高效率。

3.3 残差高效层聚合网络


图3. 与流行模块的架构对比,包括:(a) CSPNet [55], (b) ELAN [56], © C3K2(GELAN的一个案例)[28, 58], 以及 (d) 提出的R-ELAN(残差高效层聚合网络)。



3.4 架构改进


许多以注意力为核心的视觉变换器采用简洁风格的架构设计[1, 18, 19, 21, 25, 51],而我们则保留了先前YOLO系统的分层设计[3, 24, 28, 29, 32, 45–47, 53, 57, 58],并将证明这种设计的必要性。我们移除了在骨干网络最后阶段堆叠三个块的设计,这一设计在最近的版本中出现过[24, 28, 53, 58]。相反,我们仅保留了一个R-ELAN块,减少了总块数并有助于优化。我们从YOLOv11[28]继承了骨干网络的前两个阶段,并且没有使用所提出的R-ELAN。

此外,我们对原始注意力机制中的多个默认配置进行了修改,以更好地适应YOLO系统。这些修改包括将MLP比例从4调整为1.2(对于N- / S- / M-scale模型调整为2),以更好地分配计算资源,从而提升性能;采用nn.Conv2d+BN代替nn.Linear+LN,以充分利用卷积算子的效率;移除位置编码,并引入一个大的可分离卷积(7×7)(即位置感知器),以帮助区域注意力感知位置信息。这些修改的有效性将在第4.5节中得到验证。



4.1 实验设置

我们在MSCOCO 2017数据集[36]上验证了所提出的方法。YOLOv12系列包括5个变体:YOLOv12-N、YOLOv12-S、YOLOv12-M、YOLOv12-L和YOLOv12-X。所有模型均使用SGD优化器训练600个epoch,初始学习率为0.01,与YOLOv11[28]保持一致。我们采用线性学习率衰减策略,并在前3个epoch进行线性预热。根据[53, 66]中的方法,所有模型的延迟均在T4 GPU上使用TensorRT FP16进行测试。

基线。我们选择YOLOv11 [28]的先前版本作为基线。模型缩放策略也与其保持一致。我们使用了其提出的几个C3K2模块(这是GELAN [58]的一种特殊情况)。我们没有使用YOLOv11 [28]之外的任何技巧。

4.2 与最新技术的比较



表1. 与流行的实时目标检测器的对比。所有结果均使用640×640的输入获得。

在N尺度模型上,YOLOv12-N在mAP指标上分别比YOLOv6-3.0-N [32]、YOLOv8-N [58]、YOLOv10-N [53]和YOLOv11 [28]高出3.6%、3.3%、2.1%和1.2%,同时保持了相似甚至更少的计算量和参数量,并实现了1.64毫秒/图像的快速延迟速度。

对于S尺度模型,YOLOv12-S拥有21.4G的FLOPs和9.3M的参数,以2.61毫秒/图像的延迟实现了48.0的mAP。它在保持相似或更少计算量的情况下,分别比YOLOv8-S [24]、YOLOv9-S [58]、YOLOv10-S [53]和YOLOv11-S [28]高出3.0%、1.2%、1.7%和1.1%。与端到端检测器RT-DETR-R18 [66] / RT-DETRv2R18 [41]相比,YOLOv12-S在性能上具有可比性,但在推理速度、计算成本和参数数量上表现更优。

对于M尺度模型,YOLOv12-M拥有67.5G FLOPs和20.2M参数,实现了52.5 mAP的性能和4.86 ms/图像的速度。与GoldYOLO-M [54]、YOLOv8-M [24]、YOLOv9-M [58]、YOLOv10 [53]、YOLOv11 [28]以及RT-DETR-R34 [66] / RT-DETRv2-R34 [40]相比,YOLOv12-S具有显著优势。

在X尺度模型上,YOLOv12-X显著优于YOLOv10-X [53] / YOLOv11-X [28],分别提升了0.8%和0.6%,同时在速度、FLOPs和参数量上保持相当。YOLOv12-X再次超越了RT-DETR-R101 [66] / RT-DETRv2-R101 [40],具有更快的速度、更少的FLOPs(减少23.4%)和更少的参数量(减少22.2%)。

4.3 消融实验

• R-ELAN。表2评估了所提出的残差高效层网络(R-ELAN)在YOLOv12-N/L/X模型中的有效性。结果揭示了两点关键发现:(i)对于像YOLOv12-N这样的小模型,残差连接不会影响收敛,但会降低性能。相比之下,对于较大的模型(YOLOv12L/X),它们对于稳定训练至关重要。特别是,YOLOv12-X需要一个最小的缩放因子(0.01)来确保收敛。(ii)所提出的特征集成方法有效降低了模型在FLOPs和参数量方面的复杂性,同时保持了可比的性能,仅略有下降。

表2. 对提出的残差高效层聚合网络(R-ELAN)的消融实验。Vanilla:使用原始的ELAN设计;Re-Aggre.:采用我们提出的特征集成方法;Resi.:利用残差块技术;Scaling:残差连接的缩放因子。

• 区域注意力机制。我们进行了消融实验以验证区域注意力机制的有效性,结果如表3所示。评估在YOLOv12 N/S/X模型上进行,测量了在GPU(CUDA)和CPU上的推理速度。CUDA结果使用RTX 3080和A5000获得,而CPU性能则在Intel Core i7-10700K @ 3.80GHz上测量。结果表明,区域注意力机制带来了显著的加速效果(")。例如,在RTX 3080上使用FP32时,YOLOv12-N的推理时间减少了0.7ms。这种性能提升在不同模型和硬件配置中均得到了一致的观察。我们在本实验中未使用FlashAttention [13, 14],因为它会显著缩小速度差异。

4.4 速度比较

表4展示了在不同GPU上对YOLOv9 [58]、YOLOv10 [53]、YOLOv11 [28]以及我们的YOLOv12在RTX 3080、RTX A5000和RTX A6000上使用FP32和FP16精度的推理速度进行对比分析。为确保一致性,所有结果均在同一硬件上获得,并且YOLOv9 [58]和YOLOv10 [53]使用ultralytics [28]的集成代码库进行评估。结果表明,YOLOv12的推理速度显著高于YOLOv9 [58],同时与YOLOv10 [53]和YOLOv11 [28]保持相当。例如,在RTX 3080上,YOLOv9的推理时间为2.4毫秒(FP32)和1.5毫秒(FP16),而YOLOv12N的推理时间为1.7毫秒(FP32)和1.1毫秒(FP16)。在其他配置中也观察到类似的趋势。

图4展示了更多的对比结果。左子图展示了YOLOv12与流行方法在精度-参数量之间的权衡对比,YOLOv12在此方面建立了明显的优势边界,甚至超越了参数量显著减少的YOLOv10,充分展示了YOLOv12的有效性。右子图比较了YOLOv12与之前YOLO版本在CPU上的推理延迟(所有结果均在Intel Core i7-10700K @ 3.80GHz上测得)。如图所示,YOLOv12以更具优势的边界超越了其他竞争对手,凸显了其在多样化硬件平台上的高效性。

图4. 在准确率-参数量(左)和准确率-延迟权衡(CPU,右)方面与流行方法的比较。

4.5 诊断与可视化


表5. 诊断研究。为节省空间,我们仅在每个子表中展示待诊断的因素。默认参数为(除非另有说明):使用YOLOv12-N模型,从头开始训练600个周期。

• 注意力机制实现:表5a。我们研究了两种实现注意力的方法。基于卷积的方法由于卷积的计算效率,比基于线性变换的方法更快。此外,我们探索了两种归一化方法(层归一化(LN)和批归一化(BN)),并发现:尽管层归一化在注意力机制中常用,但与卷积结合使用时,其表现不如批归一化。值得注意的是,这已在PSA模块[53]中使用,我们的发现与其设计一致。

• 层次化设计:表5b。与其他检测系统(如Mask R-CNN [1, 25])不同,在这些系统中,普通的视觉Transformer架构可以产生强大的结果,而YOLOv12则表现出不同的行为。当使用普通的视觉Transformer(N/A)时,检测器的性能显著下降,仅达到38.3%的mAP。更适度的调整,例如省略第一阶段(S1)或第四阶段(S4),同时通过调整特征维度保持相似的FLOPs,分别导致性能略微下降0.5% mAP和0.8% mAP。与之前的YOLO模型一致,层次化设计仍然是最有效的,在YOLOv12中实现了最佳性能。

• 训练轮次:表5c。我们研究了不同训练轮次对性能的影响(从头开始训练)。尽管一些现有的YOLO检测器在大约500个训练轮次后达到最佳效果[24, 53, 58],但YOLOv12需要更长的训练周期(约600个轮次)才能达到峰值性能,保持与YOLOv11[28]相同的配置。

• 位置感知器:表5d。在注意力机制中,我们对注意力值v应用了一个大核的可分离卷积,并将其输出加到v@attn上。我们将此组件称为位置感知器,因为卷积的平滑效果保留了图像像素的原始位置,有助于注意力机制感知位置信息(这已在PSA模块[53]中使用,但我们扩大了卷积核,在不影响速度的情况下实现了性能提升)。如表所示,增加卷积核大小可以提高性能,但会逐渐降低速度。当核大小达到9×9时,速度下降变得显著。因此,我们将7×7设为默认核大小。

• 位置嵌入:表5e。我们研究了大多数基于注意力模型中常用的位置嵌入(RPE:相对位置嵌入;APE:绝对位置编码)对性能的影响。有趣的是,最佳性能配置是在不使用任何位置嵌入的情况下实现的,这带来了更简洁的架构和更快的推理延迟。

• 区域注意力:表5f。在本表中,我们默认使用了FlashAttention技术。这使得尽管区域注意力机制增加了计算复杂度(带来性能提升),但由此导致的减速仍然非常小。关于区域注意力有效性的进一步验证,请参见表3。

• MLP比率:表5g。在传统的视觉Transformer中,注意力模块内的MLP比率通常设置为4.0。然而,我们在YOLOv12中观察到了不同的行为。在表中,改变MLP比率会影响模型大小,因此我们调整特征维度以保持整体模型的一致性。特别是,YOLOv12在MLP比率为1.2时表现更好,这与传统做法有所不同。这一调整将计算负载更多地转移到注意力机制上,突显了区域注意力的重要性。

• FlashAttention:表5h。该表验证了FlashAttention在YOLOv12中的作用。它显示,FlashAttention在不增加其他成本的情况下,将YOLOv12-N加速了约0.3毫秒,将YOLOv12-S加速了约0.4毫秒。

可视化:热图对比。图5比较了YOLOv12与最先进的YOLOv10 [53]和YOLOv11 [28]的热图。这些热图从X-scale模型骨干网络的第三阶段提取,突出了模型激活的区域,反映了其目标感知能力。如图所示,与YOLOv10和YOLOv11相比,YOLOv12生成了更清晰的目标轮廓和更精确的前景激活,表明其感知能力有所提升。我们的解释是,这种改进来自于区域注意力机制,该机制比卷积网络具有更大的感受野,因此被认为更擅长捕捉整体上下文,从而产生更精确的前景激活。我们相信,这一特性使YOLOv12具有性能优势。

图5. YOLOv10 [53]、YOLOv11 [28] 与本文提出的YOLOv12的热力图对比。与先进的YOLOv10和YOLOv11相比,YOLOv12在图像中对物体的感知更为清晰。所有结果均使用X尺度模型获得。放大以比较细节。




YOLOv12需要FlashAttention [13, 14],目前支持图灵、安培、Ada Lovelace或Hopper架构的GPU(例如T4、Quadro RTX系列、RTX20系列、RTX30系列、RTX40系列、RTX A5000/6000、A30/40、A100、H100等)。


微调细节。默认情况下,所有YOLOv12模型均使用SGD优化器进行600个epoch的训练。根据之前的工作[24, 53, 57, 58],SGD动量和权重衰减分别设置为0.937和 5 × 1 0 − 4 5×10^{−4} 5×104。初始学习率设置为 1 × 1 0 − 2 1×10^{−2} 1×102,并在整个训练过程中线性衰减至 1 × 1 0 − 4 1×10^{−4} 1×104。数据增强技术,包括Mosaic [3, 57]、Mixup [71]和复制粘贴增强[65],被应用于增强训练效果。遵循YOLOv11 [28],我们采用了Albumentations库[6]。详细的超参数如表7所示。所有模型均在8×NVIDIA A6000 GPU上进行训练。根据既定惯例[24, 28, 53, 58],我们报告了不同物体尺度和IoU阈值下的标准平均精度(mAP)。此外,我们还报告了所有图像的平均延迟。



