世界动作模型
搜索文档
英伟达世界模型再进化,一个模型驱动所有机器人!机器人的GPT时刻真正到来
机器之心· 2026-02-09 09:18
文章核心观点 - 驱动具身智能进入通用领域的核心挑战在于“跨具身迁移”能力,即世界模型在不同硬件平台和环境中的泛化能力[1] - 英伟达GEAR实验室提出的DreamZero世界动作模型通过联合预测未来世界状态与动作,有效解决了上述挑战,实现了在未见任务和新环境中的强泛化能力,并展示了高效的跨具身迁移和实时控制能力[2][8][30] 行业技术挑战与解决方案 - **行业核心问题**:当前大多数用于机器人或智能汽车的世界模型在固定硬件平台上训练,缺乏泛化能力,难以实现跨具身迁移,本质是学习“在这台机器该怎么动”而非“世界是如何运作的”[1] - **DreamZero的解决方案**:该模型是一种基于预训练视频扩散骨干网络构建的世界动作模型,通过联合预测视频与动作来学习物理动力学,以视频作为世界演化的稠密表示[8] - **模型关键能力**:能够从异构、非重复的机器人数据中高效学习多样化技能,不依赖重复示范,并实现了仅依赖纯视频数据即可完成跨具身学习以及对新机器人的少样本快速适配[8][13] 模型性能与实验结果 - **泛化性能显著提升**:在真实机器人实验中,相比最先进的视觉语言动作模型,DreamZero在新任务与新环境的泛化上实现了超过2倍的提升[8] - **跨具身迁移效率**:仅使用10–20分钟的人类或其他机器人纯视频示范,即可在未见任务上带来超过42%的性能提升;仅需30分钟的玩耍数据即可适配新机器人,实现零样本泛化[8][26] - **开箱即用评测**:在来自预训练分布但处于新环境的任务上,DreamZero取得62.2%的平均任务进度,相比最佳预训练VLA基线的27.4%提升超过2倍;在完全未出现的任务上仍达到39.5%的任务进度[18][21] - **公开数据集验证**:在DROID数据集上,DreamZero在未见动词任务上取得49%的任务进度,而最先进的VLA仅为25–32%[23] 模型架构与技术创新 - **模型规模**:DreamZero是一个拥有140亿参数的模型[3] - **架构设计**:模型接收视觉上下文、语言指令和本体感知状态三类输入,通过基于Flow Matching的自回归DiT主干网络联合预测未来的视频帧与动作[15] - **实时推理突破**:通过模型与系统层面的优化,使这个140亿参数的自回归视频扩散模型实现了7Hz的实时闭环控制,每个动作块推理延迟为150毫秒[8][28] - **解决的关键挑战**:有效应对了视频-动作对齐、架构设计选择以及视频扩散模型实时推理慢三大挑战[14][15] 应用与影响 - **交互式提示**:展示了交互式提示的实战应用,机器人能够根据人们直接提出的语言指令完成多种新任务[27] - **压力测试表现**:在从未训练过的任务和环境中(如扇汉堡、按电梯按钮、敲木琴等)持续探索,不断涌现出新能力[29] - **行业意义**:被实验室负责人称为机器人领域的“GPT-2时刻”,代表了基于视频世界模型的新一代机器人基础模型浪潮[4][30]