当世界模型、VLA和强化学习三者结合起来,能取得什么惊艳效果?
具身智能之心·2026-01-15 08:32

行业技术背景与挑战 - 视觉-语言-动作模型在通用机器人操作任务中展现出强劲潜力 但其对专家演示数据的依赖使其难以从失败中学习并实现自我修正 [2] - 强化学习通过与物理环境的自主交互可实现模型自我提升 能弥补VLA模型的缺陷 但直接应用于真实机器人时面临样本复杂度极高的问题 [2] WMPO方法的核心创新 - WMPO是一种基于世界模型的策略优化方法 构建了一套无需与真实环境交互的在线策略VLA强化学习框架 [3] - 与主流的潜态世界模型不同 WMPO聚焦于基于像素的预测任务 使“想象”轨迹与经大规模网络图像预训练的VLA特征保持对齐 [3] - 该方法支持策略执行在线策略GRPO优化 相比常用的离线策略方法性能更优 [3] WMPO方法的实验优势 - 在仿真环境与真实机器人场景的大量实验表明 WMPO能显著提升样本效率 [3] - 该方法能实现更优的整体性能 [3] - 该方法能涌现出自我修正等创新行为 [3] - 该方法具备稳健的泛化能力与终身学习能力 [3]