经典文献阅读之--DriveVLM(自动驾驶与大型视觉语言模型的融合)

2025/3/14 20:43:00 来源：https://blog.csdn.net/hcx25909/article/details/145489849 浏览: 次关键词：经典文献阅读之--DriveVLM(自动驾驶与大型视觉语言模型的融合)

0. 简介

本文介绍了DriveVLM：自动驾驶与大型视觉语言模型的融合。城市环境中自动驾驶的一个主要障碍是理解复杂且长尾的场景，例如具有挑战性的路况和微妙的人类行为。为此，本文引入了DriveVLM，这是一种利用视觉语言模型（VLMs）增强场景理解和规划能力的自动驾驶系统。DriveVLM集成了用于场景描述、场景分析和分层规划的思维链（CoT）模块的独特组合。此外，意识到VLM在空间推理和繁重的计算需求方面的局限性，本文提出了DriveVLM-Dual，这是一种将DriveVLM的优势与传统自动驾驶流程相结合的混合系统。DriveVLM-Dual实现了强大的空间理解和实时的推理速度。

1. 主要贡献

在nuScenes数据集和我们的数据集上进行的广泛实验展示了DriveVLM的优越性，尤其是在少样本情况下。此外，DriveVLM-Dual超越了最先进的端到端运动规划方法。总结本文的贡献有四个方面：

我们引入了DriveVLM，这是一个利用视觉语言模型（VLMs）进行有效场景理解和规划的新型自动驾驶系统。
我们进一步介绍了DriveVLM-Dual，一个结合了DriveVLM和传统自动驾驶管线的混合系统。DriveVLM-Dual实现了改进的空间推理和实时规划能力。
我们提出了一个全面的数据挖掘和标注流程，以构建一个场景理解和规划数据集，连同评估SUP（场景理解和规划）任务的指标。
在nuScenes数据集和我们的SUP-AD数据集上进行的广泛实验证明了DriveVLM和DriveVLM-Dual在复杂驾驶场景中的卓越性能。

2. 综述

DriveVLM的整体流程如图1所示。一系列图像通过大型视觉语言模型（VLM）处理，以执行特殊的思维链（CoT）推理，以得出驾驶规划结果。大型VLM涉及到一个视觉变换器编码器和一个大型语言模型（LLM）。视觉编码器产生图像token；然后，基于注意力的提取器将这些token与LLM对齐；最后，LLM执行CoT推理。CoT过程可以分为三个模块：场景描述（第3节）、场景分析（第4节）和分层规划（第5节）。

DriveVLM-Dual是一个混合系统，结合了DriveVLM和传统的自动驾驶规划，集两者之大成。它将3D感知结果作为语言提示，以增强3D场景理解能力，并通过实时运动规划器进一步细化轨迹航点。我们将在第6节详细介绍其设计和优势。

<br/>