中意资讯网 中意资讯网

当前位置: 首页 » 前沿资讯 »

英伟达Cosmos-Reason1:8B具身推理表现超过OpenAI ο1

机器之心报道

编辑:Panda

在基于物理世界的真实场景进行视觉问答时,有可能出现参考选项中没有最佳答案的情况,比如以下例子:

很显然,这里最佳的答案应该是直行,但预先提供的 4 个选项中并没有这个答案。也因此,目前的大多数 AI 在面临这个问题时往往并不能识别题中陷阱,会试图从选项中找到正确答案。比如下面展示了 ChatGPT 的回答:

当然,在日常的视觉问答任务中,这样的错误无伤大雅,但一旦涉及到真实的任务场景(比如真正的自动驾驶),这样的错误就是无法容忍的了。

而要正确解答这类问题,物理常识必不可少。

近日,英伟达发布了一系列针对物理常识推理进行了专门优化的新模型:Cosmos-Reason1。从实际结果看,该模型的表现确实不错。比如针对以上问题,该模型经过一番推理后,认为给出的选项都不对,因此没有给出选择。

Cosmos-Reason1 针对以上视觉问答问题输出的思考过程和答案。

据介绍,Cosmos-Reason1 不仅包含模型,更是英伟达开发的一个包含模型、本体(ontologies)和基准的套件,其目标是让多模态 LLM 能够生成有物理依据的响应。

目前他们已经发布了两个多模态 LLM:Cosmos-Reason1-8B 和 Cosmos-Reason1-56B。

这两个模型都经过了四个阶段的训练:视觉预训练通用 SFT物理 AI SFT物理 AI 强化学习。此外,他们还为物理常识和具身推理定义了本体,并构建了用于评估多模态 LLM 的物理 AI 推理能力的基准。

下面我们就来具体看看英伟达的这项研究成果。

物理 AI 推理

物理 AI(Physical AI)并不是一个新概念,但肯定算是英伟达近段时间最为推崇的发展方向之一 —— 在黄仁勋前些天的 GTC 2025 大会 Keynote 演讲中,物理 AI 也是核心关键词之一。

根据英伟达官网的定义:物理 AI 是指使用运动技能理解现实世界并与之进行交互的模型,它们通常封装在机器人或自动驾驶汽车等自主机器中。

在今天介绍的这篇论文中,英伟达首先定义了物理常识(physical common sense)的本体论(ontology)。

可以看到,其中包含三大类别:空间、时间和其它基本物理。这三大类又被进一步分为 16 类,如下表 1 所示。

此外,该团队也定义了具身推理的本体论,其中涉及处理复杂的感官输入、预测动作效果、尊重物理约束、从互动中学习;详见下表。

Cosmos-Reason1

下面将介绍 Cosmos-Reason1 的多模态架构以及 LLM 主干选择。

多模态架构

为了构建多模态 LLM,现在已经有多种不同的架构选择。常用的架构是仅解码器架构(例如 LLaVA)和基于交叉注意力的架构(例如 Flamingo 和 Llama 3-V)。

英伟达采用了类似于 LLaVA 和 NVLM-D 的仅解码器架构,因为它简单且可通过将其它模态 token(图像或视频)对齐到文本 token 嵌入空间来统一处理所有模态。

具体来说,该模型的架构首先是一个视觉编码器,然后是包含下采样两层 MLP 的 projector,然后是仅解码器的 LLM 主干。

具体选择上,英伟达这里使用了 InternViT-300M-V2.5 作为 Cosmos-Reason1-8B 和 Cosmos-Reason1-56B 的视觉编码器。

对于每张输入图像,该架构会动态调整图像以达到预定义的宽高比,并将其分割成 1 到 12 个图块,每个图块的尺寸为 448 × 448 像素,具体取决于图像的分辨率。此外,还会生成一个缩略图图块 —— 完整图像的缩小版本,以保留全局上下文。

对于每段输入视频,则以最高每秒 2 帧的速率均匀采样最多 32 帧,并将每帧的大小调整为 448 × 448 像素。对于每个 448×448 视频帧输入,视觉编码器会生成 1,024 个视觉 token,其图块大小为 14×14,然后使用 PixelShuffle 将其下采样 2×2 倍,通过将空间维度转换为通道维度将其减少到 256 个 token。

来自多个图块的图像 token 与交错的图块 ID 标签连接在一起,而来自多个帧的视频 token 则会直接连接在一起。

Cosmos-Reason1 的 LLM 主干采用了混合 Mamba-MLP-Transformer 架构设计。

表 3 总结了其模型配置:

混合 Mamba-MLP-Transformer 主干

最近英伟达发布了不少 Mamba-Transformer 混合架构的研究成果,事实上我们昨天就正巧介绍过其中两个:Nemotron-H 和 STORM。参阅报道《腾讯混元、英伟达都发混合架构模型,Mamba-Transformer 要崛起吗?》

而今天我们介绍的 Cosmos-Reason1 系列模型则采用了 Mamba-MLP-Transformer 混合架构,如下图所示。

在训练时,Cosmos-Reason1-8B 模型采用了 4 的张量并行化(TP=4),而 Cosmos-Reason1-56B 模型则采用了 8 的张量并行化和 2 的管道并行化(TP=8, PP=2)—— 可支持更长视频的训练。

实验表现

下面我们简单看看 Cosmos-Reason1 系列模型的实验表现。有关实验的更多详细设置和讨论请阅读原论文。

物理 AI 监督式微调的效果

首先来看经过物理 AI 监督式微调后,Cosmos-Reason1 的物理常识表现。如表 7 所示,Cosmos-Reason1-8B 和 Cosmos-Reason1-56B 在各自的主干网络基础上都有明显提升,其中 56B 版本的准确度表现最好,甚至略微超过了 OpenAI ο1。

要知道,这个结果是在强化学习训练之前取得的。这彰显了该团队精心挑选的常识数据集的有效性,为进一步的 RL 改进奠定了坚实的基础。

接下来看看经过物理 AI 监督式微调后,Cosmos-Reason1 的具身推理表现。从表 8 可以看到,Cosmos-Reason1 模型在此基准上取得了比所有基线模型明显更好的结果,8B 和 56B 变体与各自的主干 VLM 相比均有超过 10% 的提升。

那 Cosmos-Reason1 的直觉物理理解能力如何呢?该团队观察到,许多 VLM 在基本物理推理方面存在困难。该团队针对三个任务对模型的能力进行了测试,包括时间箭头、空间拼图和物体持久性。

表 10 展示了测试结果,可以看到在时间箭头和物体持久性任务上,现有模型的表现和胡乱猜测差不多。而在空间拼图任务上,GPT-4o 和 OpenAI o1 的表现却比随机乱猜好得多。

这表明当前的多模态模型在推理空间关系方面比推理时间动态方面更熟练。鉴于这些模型通常在 MMMU 等标准基准上表现良好,这说明现有评估其实无法体现它们对物理世界的理解能力。

然而,该团队精心设计的直觉物理数据集可使 8B 模型能够在所有三个任务上有显著提升,就展现 Cosmos-Reason1 在直觉物理推理方面的基本能力。

物理 AI 强化学习的效果

对于上面得到的模型,该团队又进行了进一步的后训练,以进一步增强它们的物理 AI 推理能力。为此,该团队构建了自己的 RL 基础设施,并基于其针对物理常识、具身推理和直觉物理推理任务对模型进行了后训练。注意,这里并没有使用复杂奖励,都是简单的、基于规则的可验证奖励。

首先来看在物理常识和具身推理任务上的结果,如表 9 所示。

可以看到,物理 AI RL 后训练可以提高模型在大多数基准上的性能,但 RoboFail 是个明显的例外。

不过该团队表示这并不奇怪,因为 RoboFail 是经过精心设计的人工整编的基准,具有测试「动作可供性(action affordance)」和「任务完成验证」的高难度现实场景。该基准的难度源于几个因素:(1) 需要高度观察的感知或全面的时间上下文处理的样本,(2) 与 RoboVQA 中的问题不同,可供性问题涉及动作执行中的复杂物理约束。

该团队认为,在 RoboFail 上的表现不提升的主要原因是代表性训练数据不足。

该团队还发现了一个有趣现象:新提出的模型学会了仔细评估所提供的选项,如果问题不明确,则会全部拒绝。如本文开始时举的例子所示,该模型会评估每个选项的可行性,并在出现歧义时采取不在选择范围内的保守行动。

最后,在直觉物理推理任务上,如上表 10 所示,通过精心的监督式微调数据整编和针对性训练,Cosmos-Reason1-8B 在所有任务上都取得了显著的进步,而物理 AI RL 能够进一步增强模型的空间拼图和物体持久性能力。然而,推理时间箭头仍然很困难。

整体来说,物理 AI RL 可以提升模型在空间、时间和物体持久性方面的推理能力。

图 9 展示了在 RL 前后 Cosmos-Reason1 的时间推理能力的差异。可以看到,该模型能够识别反物理的运动 —— 例如粉末违背重力上升到碗中,同时不受视频中静止干扰物的影响。这表明它的推理不仅仅是感知。

类似地,在图 10 中可以看到,有 RL 的模型倾向于将空间问题与时间推理混淆。虽然他们可以感知到第二帧与第一帧缺乏相似性,但它们固有的偏见会导致它们遵循默认的视频顺序,这表明它们更多地依赖于时间线索而不是真正的空间理解。

使用空间谜题来进行 RL 可让模型从第一帧中提取关键特征,并在多帧之间系统地比较它们,从而准确地确定空间关系。

最后,图 11 表明,即使 CoT 较长,没有物理 AI RL 的模型也会难以理解物体持久性,经常难以推理物体的出现和消失。相比之下,经过 RL 的模型可通过直接而简洁的推理快速得出结论。

https://www.nvidia.cn/glossary/physical-ai/

https://research.nvidia.com/labs/dir/cosmos-reason1/

未经允许不得转载: 中意资讯网 » 英伟达Cosmos-Reason1:8B具身推理表现超过OpenAI ο1