训练机器人方式对了吗？英伟达DreamZero双榜第一新反思

DreamZero模型的技术突破与性能表现 - NVIDIA发布的世界-动作模型DreamZero在RoboArena和MolmoSpaces两个机器人基准测试上均排名第一[1] - 在RoboArena基准测试中，DreamZero以“dreaming_zebra”为名，获得1738分，领先第二名pi-0.5模型（1622分）[3] - MolmoSpaces是一个高保真物理模拟基准，尚未达到性能饱和，DreamZero在其中取得了优异表现[20] DreamZero的核心技术原理 - 核心思想是在同一个模型中联合预测未来视频和机器人动作，即 (x′,a)=f (x)，让机器人在行动前先在模型内部“想象”未来[4][10][12] - 与传统的视觉-语言-动作模型不同，DreamZero通过预测未来画面提供了更丰富的监督信号，帮助模型学习环境演化规律[13] - 模型架构上，它借鉴了世界模型的思想，但关键改动在于联合建模动作生成与视频生成[10] 训练数据分布的关键影响 - 训练数据的分布对性能至关重要，DreamZero在AgiBot数据集上的表现明显优于pi-0.5模型，而AgiBot数据并未包含在pi-0.5的训练集中[23] - 分析指出，额外的1万小时机器人数据可能并不像想象中那样万能，关键在于是否在正确分布的数据上进行预训练[25] - 有研究显示，当模型在与目标任务分布高度一致的数据上预训练时，性能会出现大幅提升[25] 模型规模与架构优势 - DreamZero基于Wan2.1-I2V-14B-480P构建，是一个140亿参数的视频生成模型，而排名第二的pi-0.5基于30亿参数的PaliGemma，参数规模相差近5倍[28] - 消融实验表明，模型规模对性能起关键作用：使用14B参数和多样化数据时，任务进度达到50% ±6.3%，而5B参数模型在同样数据下进度仅为21% ±4.2%[33] - DreamZero最多可接收8帧上下文输入（一个短视频片段），而pi-0.5仅能输入单帧图像，多帧输入有助于捕捉运动趋势和理解物理规律，从而提升决策稳定性[29][30] 视频生成作为辅助监督的作用 - 在机器人领域的低数据环境下，视频生成目标充当了一种辅助损失，为模型施加了结构约束，迫使其学习内部世界模型[34] - 与稀疏的机器人动作信号相比，视频预测提供了更强、更密集的监督信号，这可能使模型更容易适应未直接训练过的多样化环境（如MolmoSpaces）[34]