欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 新闻 > 社会 > 经典文献阅读之--DriveVLM(自动驾驶与大型视觉语言模型的融合)

经典文献阅读之--DriveVLM(自动驾驶与大型视觉语言模型的融合)

2025/2/10 8:41:10 来源:https://blog.csdn.net/hcx25909/article/details/145489849  浏览:    关键词:经典文献阅读之--DriveVLM(自动驾驶与大型视觉语言模型的融合)

0. 简介

本文介绍了DriveVLM:自动驾驶与大型视觉语言模型的融合。城市环境中自动驾驶的一个主要障碍是理解复杂且长尾的场景,例如具有挑战性的路况和微妙的人类行为。为此,本文引入了DriveVLM,这是一种利用视觉语言模型(VLMs)增强场景理解和规划能力的自动驾驶系统。DriveVLM集成了用于场景描述、场景分析和分层规划的思维链(CoT)模块的独特组合。此外,意识到VLM在空间推理和繁重的计算需求方面的局限性,本文提出了DriveVLM-Dual,这是一种将DriveVLM的优势与传统自动驾驶流程相结合的混合系统。DriveVLM-Dual实现了强大的空间理解和实时的推理速度。

1. 主要贡献

在nuScenes数据集和我们的数据集上进行的广泛实验展示了DriveVLM的优越性,尤其是在少样本情况下。此外,DriveVLM-Dual超越了最先进的端到端运动规划方法。总结本文的贡献有四个方面:

  1. 我们引入了DriveVLM,这是一个利用视觉语言模型(VLMs)进行有效场景理解和规划的新型自动驾驶系统。
  2. 我们进一步介绍了DriveVLM-Dual,一个结合了DriveVLM和传统自动驾驶管线的混合系统。DriveVLM-Dual实现了改进的空间推理和实时规划能力。
  3. 我们提出了一个全面的数据挖掘和标注流程,以构建一个场景理解和规划数据集,连同评估SUP(场景理解和规划)任务的指标。
  4. 在nuScenes数据集和我们的SUP-AD数据集上进行的广泛实验证明了DriveVLM和DriveVLM-Dual在复杂驾驶场景中的卓越性能。

2. 综述

DriveVLM的整体流程如图1所示。一系列图像通过大型视觉语言模型(VLM)处理,以执行特殊的思维链(CoT)推理,以得出驾驶规划结果。大型VLM涉及到一个视觉变换器编码器和一个大型语言模型(LLM)。视觉编码器产生图像token;然后,基于注意力的提取器将这些token与LLM对齐;最后,LLM执行CoT推理。CoT过程可以分为三个模块:场景描述(第3节)、场景分析(第4节)和分层规划(第5节)。

DriveVLM-Dual是一个混合系统,结合了DriveVLM和传统的自动驾驶规划,集两者之大成。它将3D感知结果作为语言提示,以增强3D场景理解能力,并通过实时运动规划器进一步细化轨迹航点。我们将在第6节详细介绍其设计和优势。

<br/>

> 图1展示了DriveVLM和DriveVLM-Dual模型的流程。DriveVLM接受一系列图像作为输入,并通过思维链(CoT)机制,输出场景描述、场景分析和分层规划结果。DriveVLM-Dual进一步整合了传统的3D感知和轨迹规划模块,以实现空间推理能力和实时轨迹规划。

3. 场景描述

场景描述模块由环境描述和关键对象识别组成。

4. 场景分析

点击经典文献阅读之--DriveVLM(自动驾驶与大型视觉语言模型的融合)查看全文。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com