DreamZero模型的技术突破与性能表现 - NVIDIA发布的世界-动作模型DreamZero在RoboArena和MolmoSpaces两个机器人基准测试上均排名第一[1] - 在RoboArena基准测试中,DreamZero以“dreaming_zebra”为名,获得1738分,领先第二名pi-0.5模型(1622分)[3] - MolmoSpaces是一个高保真物理模拟基准,尚未达到性能饱和,DreamZero在其中取得了优异表现[20] DreamZero的核心技术原理 - 核心思想是在同一个模型中联合预测未来视频和机器人动作,即 (x′,a)=f (x),让机器人在行动前先在模型内部“想象”未来[4][10][12] - 与传统的视觉-语言-动作模型不同,DreamZero通过预测未来画面提供了更丰富的监督信号,帮助模型学习环境演化规律[13] - 模型架构上,它借鉴了世界模型的思想,但关键改动在于联合建模动作生成与视频生成[10] 训练数据分布的关键影响 - 训练数据的分布对性能至关重要,DreamZero在AgiBot数据集上的表现明显优于pi-0.5模型,而AgiBot数据并未包含在pi-0.5的训练集中[23] - 分析指出,额外的1万小时机器人数据可能并不像想象中那样万能,关键在于是否在正确分布的数据上进行预训练[25] - 有研究显示,当模型在与目标任务分布高度一致的数据上预训练时,性能会出现大幅提升[25] 模型规模与架构优势 - DreamZero基于Wan2.1-I2V-14B-480P构建,是一个140亿参数的视频生成模型,而排名第二的pi-0.5基于30亿参数的PaliGemma,参数规模相差近5倍[28] - 消融实验表明,模型规模对性能起关键作用:使用14B参数和多样化数据时,任务进度达到50% ±6.3%,而5B参数模型在同样数据下进度仅为21% ±4.2%[33] - DreamZero最多可接收8帧上下文输入(一个短视频片段),而pi-0.5仅能输入单帧图像,多帧输入有助于捕捉运动趋势和理解物理规律,从而提升决策稳定性[29][30] 视频生成作为辅助监督的作用 - 在机器人领域的低数据环境下,视频生成目标充当了一种辅助损失,为模型施加了结构约束,迫使其学习内部世界模型[34] - 与稀疏的机器人动作信号相比,视频预测提供了更强、更密集的监督信号,这可能使模型更容易适应未直接训练过的多样化环境(如MolmoSpaces)[34]
训练机器人方式对了吗?英伟达DreamZero双榜第一新反思