ICLR 2026｜在「想象」中进化的机器人：港科大×字节跳动Seed提出WMPO，在世界模型中进行VLA强化学习

WMPO新范式概述 - 香港科技大学与字节跳动Seed团队提出WMPO新范式，让具身智能在“想象中训练”，无需在真实机器人上进行大规模强化学习交互，即可提升策略性能并涌现自我纠错行为 [2] - 该方法论文已被ICLR 2026接收，相关论文、代码与模型均已开源 [2] 传统VLA模型的训练瓶颈 - 传统VLA模型训练受限于两大瓶颈：模仿学习的先天局限与强化学习的高昂代价 [3] - 模仿学习依赖专家演示数据，模型未学习“犯错后如何应对”，在推理时易因状态偏离训练分布而错误累积，导致任务失败，在长序列操作中尤为明显 [4] - 在真实机器人上进行强化学习需要数百万次尝试，存在采样效率低、硬件磨损、安全风险及高实验成本等问题 [5] - 已有研究尝试用潜空间世界模型缓解现实交互压力，但其表征与预训练VLA的真实图像表征存在差异，难以直接用于现有VLA策略优化 [5] WMPO的核心突破与设计 - WMPO核心突破在于像素级“想象”与Online GRPO，将策略优化过程完整迁移到视觉世界模型中完成 [7] - 核心设计包含三个关键：像素级视觉世界模型、在想象空间中进行Online GRPO、攻克长时生成难题 [8] - 构建像素级视觉世界模型，直接在图像空间根据当前观察和动作预测下一帧，生成完整“想象轨迹” [8] - 引入策略行为对齐机制，在专家数据预训练基础上，对策略生成的非专家轨迹进行对齐训练，使世界模型能准确模拟OOD动作及失败后果 [8] - 在高保真视觉世界模型中引入强化学习过程，对于同一初始状态，VLA模型在世界模型中生成一组不同候选轨迹，通过奖励函数判断轨迹成功与否并进行组内相对比较以估计优势 [9] - 采用Online GRPO方式，不依赖额外价值网络，降低了内存与训练复杂度，并在长序列生成中表现更稳定 [9] - “组内竞争”机制使模型能自动偏好那些即使犯错也能恢复并完成任务的动作路径 [9] - 为攻克长时生成难题，引入噪声帧增强和帧级动作控制机制，确保生成数百帧“想象轨迹”时仍保持画面清晰、动作对齐 [10] WMPO的架构与算法 - WMPO架构通过三步跨越现实：构建高保真“沙盒”、策略评价与改进、自监督式参数优化 [11] - 通过像素级生成直接模拟物理反馈，构建视觉世界模型 [12] - 进行策略行为对齐，确保世界模型能准确模拟策略生成的OOD动作及其后果 [14] - 在想象空间内进行Online GRPO，针对同一初始状态生成一组不同轨迹进行评价 [15] - 通过训练奖励函数判断每条轨迹是否成功，并计算组内各轨迹奖励的相对好坏来估计优势 [16] - 优势估计公式为组内竞争机制，让模型能自动识别并强化能从错误中恢复的动作路径 [18][19] - 在想象出的轨迹上最小化目标函数，将VLA模型从模仿者转化为自我进化的决策者 [20] WMPO的实验结果与性能 - 在MimicGen模拟环境和真实ALOHA机器人上对WMPO进行了系统评估 [21][22] - 采样效率显著提升：仅使用128条真实轨迹作为数据预算时，WMPO成功率已超过最优Offline RL基线9.8%；当预算提升至1280条时，领先优势扩大至15.2% [23] - 涌现自我纠错行为：在“方块套圈”等任务中，当基座模型因碰撞或姿态偏移卡死时，WMPO训练的策略会主动调整动作，此类行为未出现在专家演示数据中，是通过“想象中的失败与比较”自然涌现 [24] - 执行效率更高：WMPO训练的策略动作更连贯、果断，成功轨迹长度明显缩短，减少了犹豫和重复尝试 [26] 行业启示与展望 - WMPO的成功证明高质量的“想象”足以替代昂贵的“实践”，通过将VLA的强化学习过程解耦到生成式世界模型中，解决了采样效率难题，并让机器人学会在挫折中自我完善 [28] - WMPO用纯粹的视觉模拟，为具身智能走向通用化指明了一条充满想象力的道路 [29]