港科大等团队提出WMPO:基于世界模型的VLA策略优化框架
具身智能之心·2025-11-14 09:02
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Fangqi Zhu等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 香港科技大学和字节跳动Seed团队联合提出了WMPO(世界模型驱动的策略优化框架),通过像素级视频生成世界模型实现VLA(视觉-语言-动作)模型的无真 实环境交互on-policy强化学习,显著提升样本效率、任务性能、泛化能力与终身学习能力,同时涌现出自修正等高级行为。 研究背景与核心痛点 现有解决方案难以兼顾规模化与有效性:人类干预引导学习需持续监督,难以扩展;仿真器适配多样场景成本高;传统 latent 空间世界模型与VLA的web-scale预 训练视觉特征存在天然错位,无法充分利用预训练知识。 核心框架:WMPO 整体设计 WMPO的核心逻辑是将VLA策略优化完全置于"想象"空间——基于高保真像素级世界模型生成轨迹,替代真实环境交互,同时支持更强的on-policy强化学习。整 体流程遵循"想象轨迹生成→轨迹 ...