0. 简介
本文介绍了DriveVLM:自动驾驶与大型视觉语言模型的融合。城市环境中自动驾驶的一个主要障碍是理解复杂且长尾的场景,例如具有挑战性的路况和微妙的人类行为。为此,本文引入了DriveVLM,这是一种利用视觉语言模型(VLMs)增强场景理解和规划能力的自动驾驶系统。DriveVLM集成了用于场景描述、场景分析和分层规划的思维链(CoT)模块的独特组合。此外,意识到VLM在空间推理和繁重的计算需求方面的局限性,本文提出了DriveVLM-Dual,这是一种将DriveVLM的优势与传统自动驾驶流程相结合的混合系统。DriveVLM-Dual实现了强大的空间理解和实时的推理速度。
1. 主要贡献
在nuScenes数据集和我们的数据集上进行的广泛实验展示了DriveVLM的优越性,尤其是在少样本情况下。此外,DriveVLM-Dual超越了最先进的端到端运动规划方法。总结本文的贡献有四个方面:
- 我们引入了DriveVLM,这是一个利用视觉语言模型(VLMs)进行有效场景理解和规划的新型自动驾驶系统。
- 我们进一步介绍了DriveVLM-Dual,一个结合了DriveVLM和传统自动驾驶管线的混合系统。DriveVLM-Dual实现了改进的空间推理和实时规划能力。
- 我们提出了一个全面的数据挖掘和标注流程,以构建一个场景理解和规划数据集,连同评估SUP(场景理解和规划)任务的指标。
- 在nuScenes数据集和我们的SUP-AD数据集上进行的广泛实验证明了DriveVLM和DriveVLM-Dual在复杂驾驶场景中的卓越性能。
2. 综述
DriveVLM的整体流程如图1所示。一系列图像通过大型视觉语言模型(VLM)处理,以执行特殊的思维链(CoT)推理,以得出驾驶规划结果。大型VLM涉及到一个视觉变换器编码器和一个大型语言模型(LLM)。视觉编码器产生图像token;然后,基于注意力的提取器将这些token与LLM对齐;最后,LLM执行CoT推理。CoT过程可以分为三个模块:场景描述(第3节)、场景分析(第4节)和分层规划(第5节)。
DriveVLM-Dual是一个混合系统,结合了DriveVLM和传统的自动驾驶规划,集两者之大成。它将3D感知结果作为语言提示,以增强3D场景理解能力,并通过实时运动规划器进一步细化轨迹航点。我们将在第6节详细介绍其设计和优势。
<br/>
> 图1展示了DriveVLM和DriveVLM-Dual模型的流程。DriveVLM接受一系列图像作为输入,并通过思维链(CoT)机制,输出场景描述、场景分析和分层规划结果。DriveVLM-Dual进一步整合了传统的3D感知和轨迹规划模块,以实现空间推理能力和实时轨迹规划。
3. 场景描述
场景描述模块由环境描述和关键对象识别组成。
4. 场景分析
点击经典文献阅读之--DriveVLM(自动驾驶与大型视觉语言模型的融合)查看全文。