VLA论文精读（十四）PointVLA: Injecting the 3D World into Vision-Language-Action Models

这篇论文瞄准的是2025年在arxiv上发布的一篇VLA领域论文。这篇文章最大的创新点在于将3D点云信息作为补充条件送入模型，而不是DP3一样只用纯3D数据从头训练模型，按照作者的说法这样可以在保留模型原有2D解释能力的同时添加了其3D能力，并且可以有效识别真实物体与2D照片，作者设置的各种任务中都超越了baseline模型。

写在最前面

为了方便你的阅读，以下几点的注意事项请务必了解：

该系列文章每个字都是我理解后自行翻译并写上去的，可能会存在笔误与理解错误，如果发现了希望读者能够在评论区指正，我会在第一时间修正错误。
阅读这个系列需要你有基本的 VLA, LLM, VLM 相关基础知识，有时候我会直接使用英文名词，因为这些词汇实在不容易找到符合语境的翻译。
原文可能因为版面限制存在图像表格与段落不同步的问题，为了更方便阅读，我会在博文中重新对图像表格进行排版，并做到引用图表的文字下方就能看到被引用的图表。因此可能会出现一张图片在博客中多处位置重复出现的情况。
对于原文中的图像，我会在必要时对图像描述进行翻译并附上我自己的理解，但如果图像描述不值得翻译我也不会强行写上去。

Basic Information

论文标题：PointVLA: Injecting the 3D World into Vision-Language-Action Models
原文链接: https://arxiv.org/abs/2503.07511
发表时间：2025年03月10日
发表平台：arxiv
预印版本号：[v1] Mon, 10 Mar 2025 16:32:41 UTC (8,134 KB)
作者团队：Chengmeng Li, Junjie Wen, Yan Peng, Yaxin Peng, Feifei Feng, Yichen Zhu
院校机构：
- Shanghai University;
- East China Normal University
项目链接: pointvla.github.io
GitHub仓库: 【暂无】

Abstract

VLA 利用大规模 2D 视觉语言进行预训练，擅长完成机器人任务，但对 RGB 图像的输入依赖限制了真实世界交互中至关重要的空间推理能力。使用 3D 数据重新训练这些模型在计算上过于昂贵，如果丢弃现有2D 数据集则会浪费宝贵的资源。为了弥补这一差距，作者提出了 PointVLA 框架，该框架可以使用点云输入增强预训练的 VLA，而无需重新训练，具体操作是冻结原始动作专家部分并使用轻量级模块化块注入 3D 特征。为了证明集成点云输入能够提升模型性能，作者进行了跳块分析，以精确定位原始动作专家中贡献不强的块，确保仅将 3D 特征注入这些块中，最大限度地减少对预训练表示的干扰。

实验表明 PointVLA 在仿真和真机任务中都优于SOTA 2D 模仿学习方法，例如 OpenVLA、Diffusion Policy 和 DexVLA 。PointVLA 有以下几个关键优势：

少样本多任务处理：PointVLA 成功执行了四种不同的任务，每种任务仅使用 20 次演示；
真实与平面图像的区分：PointVLA 能够区分真实物体与2D照片，并利用 3D 知识来提高安全性和可靠性；
高度适应性：PointVLA 使机器人能够适应训练数据中未见过的不同桌面高度物体；
长程任务表现：PointVLA 在长程任务中表现出色，例如从移动的传送带上拾取和包装物体，展示了其在复杂动态环境中泛化的能力；

1. Introduction

机器人基础模型，尤其是VLA 让机器人能够感知、理解物理世界并与之进行交互。利用预训练 VLM作为backbone，处理视觉和语言信息，并嵌入到共享的表示空间中，然后将转换为机器人动作。此过程使机器人能够以有意义的方式与其环境交互。VLA 性能很大程度上取决于其训练数据的规模和质量。例如，Open-VLA 在 4000 小时的开源数据集上进行训练，而像 π0 这样更先进的模型则利用 10000 小时的专用数据。除了这些大规模的基础模型外，许多项目还贡献了现实世界中人类遥操作机器人演示的大规模数据集，例如，AgiBot-World 发布了包含数百万条轨迹的海量数据集，演示了复杂的类人交互。这些预训练的 VLA 模型与开源机器人数据集一起，通过提供丰富多样且高质量的训练数据，显著推动了机器人学习的发展。

尽管取得了上述进展，但大多数基础模型都是基于 2D 视觉输入进行训练的，而人类是在三维空间中感知和与世界互动的。训练数据中缺乏 3D 空间信息，阻碍了机器人深入了解其环境的能力，对于需要精确空间意识、深度感知、物体操控的任务尤为重要。作者完成本文的动力在于，许多研究已经在基础 VLA 和大规模 2D 机器人数据集上投入了大量资金。使用 3D 数据从头开始重新训练这些模型在计算上过于昂贵，丢弃宝贵的 2D 机器人数据是不切实际的。因此，探索能够将 3D 输入集成到现有基础模型中的新型框架至关重要，这是一个在先前文献中尚未被充分探索的研究领域。

本文绍了 PointVLA 一个将点云集成到预训练的VLA中的新框架。3D 数据总量远小于 2D 数据，基于该假设，重点是不破坏已获得的 2D 特征表示。为了解决这个问题，作者提出了一个 3D 模块，将点云信息直接注入动作专家，并保持VL主干的完整性，确保 2D 视觉文本嵌入得以保留并仍然是可靠的信息来源。此外，本文的目标是最大限度地减少对动作专家特征空间的干扰。通过跳块分析，识别出在执行时不太重要的层。这些“不太有用”的特征嵌入更适合追加新的模态。在识别出这些不太重要的块之后，通过加法注入提取的 3D 特征。最终整体模型保持了预训练 VLA 的完整性，同时结合了点云输入的优势。

作者开展了大量实验来验证方法的有效性：在 RoboTwin 仿真平台上，模型优于纯 3D 模仿学习方法，如 3D DP ；还在两个型号的双臂真机上进行了实验：类人形 UR5e 和类似 Aloha 平台的 AglieX 机械臂。实验还凸显了 PointVLA 的几个关键优势：

Few-shot multi-tasking：PointVLA 可以根据指令执行四类任务，每类任务仅需 20 个演示即可完成训练。在小的数据集上进行多任务训练极具挑战性，而模型方法显著优于baseline；
Real-vs-photo discrimination：真实物体与其照片在二维中可能非常相似，这会导致机器人产生混淆并造成安全隐患，PointVLA 能够有效地区分真实物体及其照片，避免被虚假照片欺骗；
Height adaptability：PointVLA 可根据桌子高度的变化调整机器人的动作（例如，在更高的桌子上抓取同一物品），而传统的 2D VLA 模型通常会在这种情况下失败；

此外，作者还测试了一些具有挑战性的长程任务，例如从移动的传送带上拾取多件物品并将其装入箱中。实验证明了 PointVLA 框架在不同场景下的稳健性能和泛化能力，为将更多模态集成到预训练的 VLA 模型中指明了一个有前景的方向。

2. Related Works

Vision-Language-Action models

最近的研究越来越侧重于开发基于大规模机器人学习数据集训练的通用机器人策略。VLA 已成为训练此类策略的一种有前途的方法。VLA 将VLM（已在海量互联网规模的图像和文本数据集上进行预训练）扩展到机器人控制。这种方法提供了几个关键优势：利用具有数十亿个参数的大规模视觉语言模型主干，可以从庞大的机器人数据集中进行有效学习，复用来自互联网规模数据的预训练权重，增强 VLA 解释不同语言命令和推广到新物体和环境的能力，使其高度适应现实世界的机器人应用。

Robot learning with 3D modalities

在 3D 场景中学习鲁棒的视觉运动策略是机器人学习中的一个重要领域。现有的方法如 3DVLA 已经提出了综合框架，将各种 3D 任务（如泛化、视觉问答 (VQA)、3D 场景理解和机器人控制）集成到统一的VLA中。然而 3DVLA 的一个局限性在于其为仿真平台上完成，使得仿真与现实之间存在显著的差距；其他研究如 3D 扩散策略，已经证明使用外部 3D 输入（例如来自外部摄像头）可以提高模型对不同光照条件和物体属性的泛化能力； iDP3 进一步增强了 3D 视觉编码器，并将其应用于人形机器人，在以自身为中心和外部摄像机视角的各种环境中均实现了稳健的性能。然而，丢弃现有的 2D 机器人数据，或基于 3D 视觉输入完全从零开始训练，计算成本高昂且资源密集。一个更实用的解决方案是开发一种方法，将 3D 视觉输入作为补充知识源集成到预训练的基础模型中，从而在不影响已训练模型性能的情况下获得新模态的优势。

3. Methodology

3.1. Preliminaries: Vision-Language-Action Models

VLA正在推动现实世界机器人学习的重大转变，其强大之处在于一个基于海量互联网数据训练得到的底层的VLM。这种训练能够在共享嵌入空间内有效地对齐图像和文本表示。VLM 充当模型的“大脑”，处理指令和当前视觉输入以理解任务状态。随后，“动作专家”模块将 VLM 的状态信息转化为机器人动作。本文工作以 DexVLA 为基础，DexVLA 是一个具有 20 亿个参数、以 Qwen2-VL VLM 为backbone，以及一个 10 亿个参数的 ScaleDP （一种扩散策略变体）动作专家模块。 DexVLA 的三个训练阶段：

100 小时的跨本体训练；
本体训练；
针对复杂任务的可选特定训练；

这三个阶段均采用二维视觉输入，虽然这些 VLA 模型在各种操作任务中展现出令人印象深刻的能力，但二维视觉输入限制了在需要三维理解的任务表现，例如通过照片进行物体欺骗或在不同桌子高度上进行泛化。下一节旨在说明如何将 3D 世界注入预训练的 VLA，整体框架如Fig.2 所示。

在这里插入图片描述

3.2. Injecting Point Cloud into VLA

Motivation

VLA 通常在大规模二维机器人数据集上进行预训练。作者提出的模型其中一个核心点在于：解决现有二维预训练语料库与新的三维数据之间规模上的内在差异。假设三维传感器数据（例如点云、深度图）的体量是二维VL数据集的小几个数量级，这种差异需要一种方法来保留从二维预训练中学习到的丰富视觉表征，同时有效地集成稀疏的三维数据。

一种简单策略是将 3D 视觉输入直接转换为 3D 视觉标记并将它们混合到LLM中，这种方法已被许多 3DVLM 采用，例如 LLaVA-3D。然而，当前的VL在小规模 3D 数据集微调后表现出有限的 3D 理解能力，这种限制会因为下面两个因素而加剧：

2D 像素和 3D 几何结构之间的巨大领域差距；
与丰富的图像文本和纯文本语料库相比，高质量 3D 文本配对数据集稀少；

为了规避这些问题作者提出了一种范式，将 3D 点云数据视为 补充调节信号 而不是主要输入模态。该策略将 3D 处理与核心 2D 视觉编码器分离，从而在保留预训练 2D 表示完整性的同时，使模型能够利用几何线索。作者的方法能够缓解 2D 知识的灾难性遗忘，并降低在有限的 3D 数据上过拟合的风险。

Model architecture for point cloud injector

点云嵌入器的整体架构如Fig.1 (right)所示（Note：这里可能是作者的一个笔误，因该是 Fig.2 (right) 因为Fig.1并没有介绍模型结构，因此这里放的是我理解的 Fig.2）。对于传入的点云嵌入，首先转换通道维度使其与原始动作专家的通道维度匹配。由于来自点云的动作嵌入可能很大（具体取决于块的大小），作者设计了一个动作嵌入限制来压缩来自动作专家的信息，同时将其与 3D 点云嵌入对齐。对于动作专家中选定的块，首先应用一个 MLP 层作为每个块的适配器，然后执行加法运算将点云嵌入注入模型。

在这里插入图片描述

不能将 3D 特征注入每个动作专家块中，原因如下：1.微调每个块计算成本会过高；2.注入会影响对应块的2D性能。鉴于训练目标是最大限度地减少有限的 3D 视觉知识对预训练 2D 动作嵌入的干扰，作者筛选出了可以在推理过程中跳过而不会影响整体性能的块。随后，仅将 3D 特征注入这些不太重要的块中。

Point cloud encoder

与 DP3 和 iDP3 的表现一致，预训练的 3D 视觉编码器会降低性能，通常会阻碍机器人在新环境中成功进行行为学习。因此，作者采用了一种简化的分层卷积架构：上层卷积层提取低级特征、下层卷积块学习高级场景表示、层间最大池化逐步降低点云密度。最后，将每个卷积块的特征嵌入连接成一个统一的嵌入，封装多级 3D 表示知识，保留提取的点云特征嵌入以供后续使用。该架构类似于 iDP3 编码器。作者认为使用更先进的点云编码器可以进一步提高模型性能。但由于这不是本文的重点因此留待以后讨论。

3.3. Which Blocks to Inject Point Cloud? A Skip Block Analysis

如前所述，将点云注入每个动作专家块并不合适，因为会增加计算成本并破坏从 2D 视觉中学习到的原始动作表示，因此需要分析动作专家中哪些块不太重要（即可以在推理过程中跳过而不会影响性能的块）。这种方法在图像生成、视觉模型、LLM中使用的技术一致。此处使用 DexVLA 中衬衫折叠作为分析的案例研究。DexVLA 配备了 10 亿参数动作专家和 32 个扩散 transformer 块，评估时使用平均分数作为指标，该指标时长程任务的标准衡量标准，通过将任务分为多个步骤并根据步骤完成情况评估性能。首先一次跳过一个块，如Fig.3 所示。

在这里插入图片描述

实验表明前 11 个块对于模型至关重要，跳过其中任何一个块都会导致性能显着下降，当跳过这些块后夹持器无法紧密闭合；但从第 11 个块开始直至最后一个块，跳过单个块对整体性能影响不显著，表明从第 11 到第 31 个块对训练后的性能贡献较小。为了进一步研究哪些块适合点云注入，从第 11 个块开始进行多块跳过分析，如Fig.3 (right)所示。发现模型在任务失败前最多可以跳过五个连续的块，表明可以通过特定块将 3D 表示选择性地注入动作专家块进行训练，冻结除了最后几层外原始模型中的所有模块，只训练五个额外的注入块，这些块轻量且推理速度快提升了整体模型的效益。

4. Experiment

本节将通过一系列实验来验证方法的有效性。在第 4.1 节中详细描述了真机工作空间；第 4.2 节和 4.3 节中评估了少样本多任务场景和长程挑战性任务；第 4.4 节和 4.5 节中探索了两种只能通过 3D 视觉输入的独特泛化能力；最后将方法与模拟基准进行了比较。

4.1 Implementation Details

在这项工作中，作者在两个实体中进行了真机实验：

Bimanual UR5e：两台 UR5e 机器人每台配备 Robotiq 平行爪式夹持器和腕式摄像头。两臂之间安装一台俯拍摄像头，共有三个摄像头视图，以及 14 DoF 的动作空间。数据采集频率为 15Hz，使用 RealSense D435i 作为腕式摄像头；
Bimanual AgileX：两个 6 DoF AgileX 机械臂，每个机械臂配备一个腕式摄像头和一个底座摄像头，该装置拥有 14 DoF 动作空间以及三个摄像头视图。数据采集频率为 30Hz，使用 RealSense D435i 作为腕式摄像头；

RealSense L515 摄像头用于采集点云。将 VLM 模型设置为可训练，因为需要学习新的语言指令。在两个实验中都使用了 DexVLA 中第一阶段的预训练权重，并进行了微调。使用与 DexVLA 第二阶段训练相同的训练超参数，以及最后一个 checkpoint 进行评估，避免出现“樱桃采摘”的情况。所有任务的chunk size = 50。

Baseline

baseline 包括扩散策略 DP、3D 扩散策略 DP3、ScaleDP-1B（将扩散策略扩展至 1B 参数的变体）、Octo、OpenVLA 和 DexVLA。由于 PointVLA 建立在 DexVLA 之上，因此 DexVLA 可以看作 PointVLA 的简化版本，无需结合 3D 点云数据。

4.2. Few-Shot Multi-Tasking

Task description

如Fig.5 所示为真机实验设计了四个小样本任务：手机充电、擦拭盘子、放置面包、运输水果。物体被随机放在一个小的范围内，统计每个模型的平均成功率。1）手机充电：机器人拿起一部智能手机并将其放在无线充电器上，手机的大小测试动作精度，并需要需要小心处理易碎性；2）擦拭盘子：机器人同时拿起一块海绵和一个盘子用海绵擦拭盘子，评估双手操作技能；3）放置面包：机器人拿起一块面包并将其放在盘子上，用面包下面一层泡沫测试目标物体高度上的泛化性；4）运输水果：机器人拿起一个随机方向的香蕉并将其放在位于中心的盒子里。

由于此处旨在验证模型的少样本多任务处理能力，每个任务采集了 20 个演示，总共 80 个演示。物体的位置在小空间内随机分配。这些任务评估了模型在不同场景下管理机器人独立运动和协调运动的能力，所有数据均以 30Hz 的频率收集。

Experimental results

实验结果如Table.6 （这里应该还是作者的笔误，对应的内容应为 Fig.6）所示，作者的方法在此场景下的表现优于所有基线方法。扩散策略在大多数情况下会失败，这可能是因为每个任务的样本量太小，导致动作表征空间出现纠，即使增加模型规模 (ScaleDP-1B) 也无法带来显著的提升。

在这里插入图片描述

尽管演示样本有限，DexVLA 仍展现出强大的少样本学习能力，性能与 PointVLA 相当甚至略逊一筹；PointVLA 中点云数据的加入使得学习效率更高，凸显了将 3D 信息融入模型的必要性。更重要的是证明了成功地保留从二维预训练 VLA 中学习的能力。

4.3. Long-Horizon Task: Packing on Assembly Line

除了传统的多任务处理之外，作者还进一步对 PointVLA 进行了微调使其能够执行长程的包装任务，如Fig.4 所示。首先，装配线处于运动状态要求机器人快速准确地抓取物体；其次，此场景中的实现方式与预训练数据中的实现方式不同，需要快速适应全新的设置；最后，作为一项长程任务，机器人必须在密封包装箱之前依次拾取并放置两袋洗衣液。这些复杂性使得这项任务的要求极高。

在这里插入图片描述

如Table.1所示，PointVLA 在长距离任务中实现了最高平均长度，比强大的基线 DexVLA 高出 0.64 倍，同时优于其他几个基线。下一节将重点介绍 PointVLA 的物体幻觉问题。

在这里插入图片描述

4.4. Real-vs-Photo Discrimination

在本节将探索“实物与照片辨别”任务（使用物体的照片替换真实物体），从二维视角来看，屏幕上显示的“假”物体与真实物体几乎完全相同。

使用双臂 UR5e 机器人进行了一项打包任务。实验内容如下：将洗衣液替换为投影在屏幕上的洗衣液照片如Fig.7 所示。从第三人称视角来看，照片与真实物体明显不同。然而，从机器人自身为中心的顶部摄像头视角看，照片与真实的洗衣液非常相似。传统的 2D 的VLA（例如 OpenVLA 和 DexVLA）无法区分照片和实物，会尝试抓取物体，DexVLA 会反复尝试抓取不存在的洗衣液。由于模型认为物体存在但却无法成功抓取，因此陷入了循环。相比之下，PointVLA 成功识别出传送带上不存在物体，利用 3D 空间理解确定物体所在的空间实际上是空的，证明了 3D 感知模型在缓解物体幻觉方面的优势。

在这里插入图片描述

4.5. Height Adaptability

这里的高度泛化是指模型适应不同桌面高度的能力，这对于机器人模型来说至关重要，因为大多数演示都是在固定高度的桌面上进行的。然而，当机器人部署到桌面高度与其训练环境明显不同的环境中时，会有怎样的表现需要进行验证。

作者设计了一个如Fig.8所示的实验。在“放置面包”任务中，在面包下面放置了一层泡沫塑料。训练期间这层泡沫厚度为 3 毫米，所有采集的数据都基于这个高度；推理过程中，将泡沫厚度增加到 52 毫米，以评估模型的高度泛化能力。实验结果表明，传统的基于 2D 的 VLA 模型，例如 OpenVLA、DP、ScaleDP-1B 和 DexVLA，在这种情况下都失败了，在检测到面包后，这些模型尝试将机械臂向下推至训练数据中的高度后再进行抓取，无法适应增加的高度。相比之下，PointVLA 成功完成了任务，利用点云数据准确地感知了面包的新高度，相应地调整了抓取器，并成功执行了抓取。该实验表明，结合 3D 信息可以使 VLA 模型处理物体高度的变化。

在这里插入图片描述

4.6. Experimental Results on Simulation Benchmarks

在 RoboTwin 上评估了模型，该平台是一种 14 DoF 的双臂仿真平台，涵盖了各种各样的任务。将方法与扩散策略和 3D 扩散策略 DP3 进行了比较。扩散策略是视觉运动策略学习的成熟基线，而 DP3 将其扩展到 3D 领域。原始 DP3 仅使用点云数据作为输入。为了公平起见，还将 RGB 图像合并到 DP3 中。对两个版本的 DP3 与原始扩散策略进行了比较。在所有实验中，使用 320×180 的标准图像分辨率作为摄像头输入，包括 L515 和顶部摄像头。

测试分别使用包含 20 和 50 个样本的数据集进行。每次实验使用三个随机种子（0、1、2）进行策略训练，不进行 Cherry Picking。然后，对每个策略进行 100 次测试，得出三个成功率。计算这些成功率的平均值和标准差，以获得如下所示的实验结果。

实验结果如Table.2所示，在所有任务和各种设置中，PointVLA 均实现了最高的平均成功率，无论其训练样本为 20 还是 50 个。表明即使在数据资源有限的情况下，方法仍然有效，并且在拥有丰富的训练数据时仍能保持良好的性能。

在这里插入图片描述

此外，对于像 DP3 这样的纯 3D 模型，直接引入 RGB 输入会对性能产生负面影响。相比之下，作者的方法强调了有条件地将 3D 点云数据集成到模型中的必要性，与仅依赖 2D 视觉输入的模型相比，这显著提高了性能。

5. Conclusion

虽然VLA通过大规模 2D 预训练在机器人学习方面表现出色，但它们对 RGB 输入的依赖限制了 3D 空间推理。而使用 3D 数据进行重新训练成本高昂，丢弃 2D 数据集又会降低泛化能力。为了解决这个问题，作者推出了 PointVLA 一个使用 3D 点云作为增强信息输入的预训练 VLA 的框架，保留了原始模型的 2D 表示能力。通过集成模块化 3D 特征注入器并利用跳过块分析，方法可以有效地整合空间信息，无需从零开始训练。在仿真和现实环境中的实验证明了 PointVLA 的有效性，实现了少样本多任务学习（4 个任务，每个任务仅需 20 次演示），并且在动态物品包装等长期任务中表现出色。在双臂真机（UR5e 和 AgileX ）上进行的实际测试进一步验证了其实用性和安全性。作者的工作凸显了在无需进行从零训练的情况下，使用新模式增强预训练机器人模型的可行性。未来的工作包括将 3D 感知预训练扩展到更大的数据集。

VLA论文精读（十四）PointVLA: Injecting the 3D World into Vision-Language-Action Models

写在最前面

Basic Information

Abstract

1. Introduction

2. Related Works

Vision-Language-Action models

Robot learning with 3D modalities

3. Methodology

3.1. Preliminaries: Vision-Language-Action Models

3.2. Injecting Point Cloud into VLA

Motivation

Model architecture for point cloud injector

Point cloud encoder

3.3. Which Blocks to Inject Point Cloud? A Skip Block Analysis

4. Experiment

4.1 Implementation Details

Baseline

4.2. Few-Shot Multi-Tasking

Task description

Experimental results

4.3. Long-Horizon Task: Packing on Assembly Line

4.4. Real-vs-Photo Discrimination

4.5. Height Adaptability

4.6. Experimental Results on Simulation Benchmarks

5. Conclusion

相关资讯

热文排行

最新新闻

推荐新闻

热搜词