欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 房产 > 家装 > Cosmos-Reason1:从物理常识到具身推理(上)

Cosmos-Reason1:从物理常识到具身推理(上)

2025/3/25 16:49:03 来源:https://blog.csdn.net/yorkhunter/article/details/146463507  浏览:    关键词:Cosmos-Reason1:从物理常识到具身推理(上)

25年3月来自 Nvidia 的论文“Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning”。

物理 AI 系统需要感知、理解和执行物理世界中的复杂动作。Cosmos-Reason1 模型,可以理解物理世界并通过长链思维推理过程以自然语言生成适当的具身决策(例如,下一步动作)。首先定义物理 AI 推理的关键能力,重点关注物理常识和具身推理。为了表示物理常识,用分层本体(ontology)来捕获有关空间、时间和物理的基本知识。对于具身推理,依赖于跨不同物理具身进行泛化的二维本体。基于这些能力,开发两个多模态大语言模型,Cosmos-Reason1-8B 和 Cosmos-Reason1-56B。分四个阶段整理数据并训练模型:视觉预训练、一般监督微调 (SFT)、物理 AI 监督微调(SFT) 和物理 AI 强化学习 (RL) 作为后训练。为了评估模型,根据本体论建立物理常识和具身推理的综合基准。评估结果表明,物理 AI 监督微调(SFT) 和强化学习(RL)带来显著的改进。

物理 AI 系统旨在与物理世界交互。为了有效地遵循指令并采取适当的行动来实现预期目标,它们首先需要感知、理解和推理物理世界。最近,随着通过长思维链 (CoT) 过程实现后训练和测试-时间规模化的突破,大语言模型 (LLM) 在解决编码和数学等领域的复杂问题方面表现出卓越的通用推理能力 (OpenAI,2024;DeepSeek-AI,2025)。然而,这些模型的一个关键限制在于它们将知识扎根于物理世界的能力。虽然在大量来自互联网的文本数据上训练的 LLM 可能会获得推理物理世界的基本知识,但它们往往难以建立这些知识与现实世界的交互和动态之间的联系。

如图显示提出的 Cosmos-Reason1 的概览。总之,包括两个多模态大语言模型,Cosmos-Reason1-8B 和 Cosmos-Reason1-56B。这些模型分四个阶段进行训练:视觉预训练、通用 SFT、物理 AI SFT 和物理 AI RL。为物理常识和具身推理定义本体。此外,建立基准来评估模型的物理 AI 推理能力。

请添加图片描述

物理人工智能推理模型包括两个重要能力——物理常识推理和具身推理。首先,物理人工智能模型应该具备物理常识,即对环境具有普遍的、与具身无关的理解,并构成预测现实世界中什么是合理和不合理的基础。其次,物理人工智能模型还应帮助具身智体感知、推理和做出有关规划未来与物理环境交互的决策。本文寻求将“系统 1”和“系统 2”纳入物理常识推理和具身推理中。“系统 1”能够实现快速、直观的反应,例如模式识别和本能判断,而“系统 2”运行速度较慢,参与复杂决策的深思熟虑的推理(Kahneman,2011)。

常识推理

人类主要通过被动观察世界来获得物理常识。例如,婴儿在出生几个月后就能理解物体永久性和重力等基本概念(Riochet,2021)。这种常识包含关于现实世界中什么是可能、不可能或可能发生的一系列知识。在现实环境中训练人工智能系统成本高昂,并且可能对系统及其周围环境造成风险。利用物理常识,人工智能系统可以快速学习新技能,同时尽量减少反复试验,避免在不确定的情况下犯下严重错误(LeCun,2022)。

为了定义物理常识,引入一个由三大类别组成的本体:空间、时间和其他基础物理学,进一步分为 16 个细粒度子类别。受 Morris(2024)的启发,本文专注于能力而不是流程。具体而言,本体确定物理 AI 模型应具备的关键能力,但没有指定系统完成任务的机制或具身。例如,认为理解物体的空间关系、事件的时间顺序和物体持久性的能力是物理 AI 的基础。然而,这样的系统不一定需要像人类一样行动,比如用灵巧的手和手指抓握或用两条腿走路。

如图展示了物理常识本体:空间类别包括物体之间的关系、它们的相互作用以及周围环境;它包括关系、合理性、一致性和环境等概念;时间类别涉及在一段时间内展开的动作和事件,涵盖动作、顺序、因果关系、观测传感器(摄像头)和规划;基础物理类别处理目标和核心物理原理,包括属性、状态、物体永久性、力学、电磁学、热力学和反物理学。

请添加图片描述

下表描述所有子类别的详细定义:

请添加图片描述

具身推理

物理人工智能在现实世界中运行,其中环境是动态的、不确定的,并受复杂的物理交互控制。与数学和编程中的抽象推理不同,抽象推理以结构化和确定性的方式操纵符号,而具身推理需要人工智能系统与物理世界交互并从中学习。与被动理解不同,具身人工智能中的推理通常以行动为基础,使机器人不仅能够理解它们当前观察到的内容,而且还能在不确定和动态的环境中为未来规划智能行为。具体而言,具身推理需要具备以下能力:

  1. 处理复杂的感官输入。与使用干净数据表示的符号推理不同,具身推理必须从原始的、通常不完整且模糊的感官输入中提取有意义的模式。
  2. 预测行动效果。行动会产生物理后果,有效的推理需要直观地掌握因果关系。人工智能系统必须预测物体将如何响应力,机器人的身体将如何与周围环境互动,或者车辆的运动将如何受到地形和物理的影响。
  3. 尊重物理约束。与通常涉及优化离散选择的抽象问题解决不同,具身推理必须考虑现实世界的物理,例如惯性、摩擦和材料特性。它要求人工智能制定在物理约束条件下可行的长期行动计划,确保执行的稳定性、效率和安全性。
  4. 从互动中学习。在物理人工智能中,动作并不是孤立发生的;每一个动作或决定都会影响环境并产生反馈。具身推理必须根据这些互动不断更新其理解,使系统能够动态地改进其行为。

具身推理也不局限于单一类型的智体——它适用于人类、动物和各种形式的机器人(例如,机械臂、人形机器人或自动驾驶汽车)。它们都需要发展类似的具身推理技能,以便在不同的环境条件和任务目标下导航、操纵和做出自适应决策。下表将物理具身的能力和类型与示例一起总结为二维本体:

请添加图片描述

Cosmos-Reason1 是专门用于物理 AI 推理的多模态大语言模型系列。该系列包括两个模型:Cosmos-Reason1-8B 和 Cosmos-Reason1-56B。

多模态架构

使用现有的纯文本 LLM 主干和视觉编码器构建多模态大语言模型 (LLM) 有不同的架构设计。常用的架构是仅解码器架构(例如 LLaVA (Liu et al., 2023))和基于交叉注意的架构(例如 Flamingo (Alayrac et al., 2022) 和 Llama 3-V (Grattafiori et al., 2024))。利用类似于 LLaVA(Liu,2023)和 NVLM-D(Dai,2024)的仅解码器架构,因为它简单易用,并且通过将其他模态 token(图像或视频)对齐到文本 token 嵌入空间来统一处理所有模态。具体来说,该模型从视觉编码器(Chen,2024)开始,然后是包含下采样两层 MLP 的投影器,然后是仅解码器的 LLM 主干(Nvidia,2024;Waleffe,2024;DeepSeek-AI,2025)。

本文选择 InternViT-300M-V2.5(Chen,2024)作为 Cosmos-Reason1-8B 和 Cosmos-Reason1-56B 的视觉编码器。对于每张输入图像,动态调整图像以达到预定义的宽高比,并将其分割成 1 到 12 个图块(tiles),每个图块的尺寸为 448 × 448 像素,具体取决于图像的分辨率。此外,还会生成一个缩略图(thumbnail)图块;这是完整图像的缩小版本,以保留全局上下文。更多详细信息请参见 Dai et al. (2024)。对于每个输入视频,以每秒 2 帧的最大速率均匀采样最多 32 帧,将每帧的大小调整为 448 × 448 像素。对于每个 448 × 448 视频帧输入,视觉编码器会生成 1,024 个视觉 tokens,其图块大小为 14 × 14,然后用 PixelShuffle (Shi et al., 2016) 将其下采样 2 × 2 倍,通过将空间维度转换为通道维度将其减少到 256 个 tokens。如 Dai (2024) 所述,来自多个图块的图像 tokens 与交错的图块 ID 标签连接在一起,而来自多个帧的视频 tokens 则直接连接在一起。Cosmos-Reason1 的 LLM 主干遵循混合 Mamba-MLP-Transformer 架构设计。如图说明该多模态架构,并在下表中总结模型配置。

请添加图片描述
请添加图片描述

混合 Mamba-MLP-Transformer 主干

自推出以来,Transformer 架构 (Vaswani,2017) 就彻底改变语言建模领域,成为构建基础模型的事实标准。然而,其自注意机制相对于其上下文长度具有二次时间复杂度。相比之下,最近提出的 Mamba 架构 (Gu & Dao,2023) 引入具有选择性状态空间模型(SSM)的线性时间序列建模,使其在处理长序列方面效率显著提高。实际上,Mamba 的选择性状态空间可能不足以捕捉长序列中的每个细节。为了解决这个问题,一小部分 Transformer 层被纳入长上下文建模,从而产生混合 Mamba-MLP-Transformer 架构 (Waleffe,2024)。 在 Cosmos-Reason1-8B 和 56B 中,用预训练的 LLM 和混合 Mamba-MLP-Transformer 架构(Nvidia,2024;Waleffe,2024)作为 LLM 主干。

如图显示 8B LLM 和 56B LLM 架构。用张量并行度为 4(TP=4)(Shoeybi,2019)训练 Cosmos-Reason1-8B 模型,而使用张量并行度为 8 和流水线并行度为 2(TP=8,PP=2)训练 Cosmos-Reason1-56B 模型,以支持更长的视频训练。

请添加图片描述

。。。。。。待续。。。。。。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词