ProphRL 框架
搜索文档
碾压π0.5,复旦团队首创「世界模型+具身训练+强化学习」闭环框架
机器之心· 2025-12-04 16:18
文章核心观点 - 研究团队提出ProphRL框架,通过将大规模预训练的世界模型Prophet作为视频级模拟器,并结合专为流式动作头设计的在线强化学习算法FA-GRPO与FlowScale,在虚拟环境中优化VLA策略,显著提升了机器人操作任务的成功率[4] - 该方法解决了当前VLA策略主要依赖模仿学习导致的分布偏移和长时序任务失败问题,以及直接在真实机器人上进行强化学习成本高昂、难以规模化的瓶颈[3][4][12] - 实验结果表明,ProphRL在多个公开基准上为各类VLA模型带来5–17%的成功率提升,在真实机器人实验中进一步取得24–30%的大幅度成功率提升[8] 研究背景与问题 - 当前大多数Vision-Language-Action策略仍主要依赖模仿学习,实质上是按示范轨迹复刻,在分布发生偏移、任务形式变化或操作时域拉长时,极易出现误差累积并导致任务失败[3][11] - 在真实机器人上开展在线强化学习成本高昂,并行执行受限,伴随大量重置与标注开销,难以规模化[12] - 基于传统物理引擎的强化学习难以同时兼顾逼真度、场景多样性与工程可用性,而现有数据驱动世界模型泛化能力有限,尚未形成能够真正支撑强化学习的通用模拟器[13][14] ProphRL技术框架 - Prophet世界模型采用视频扩散模型结构,通过双重动作条件(末端执行器位姿增量和动作帧)和FramePack历史记忆机制,学习从动作序列到未来操作视频的映射[17] - 研究团队提出光流引导的评估协议,通过对比真实视频与生成视频的光流一致性,以外观无关的方式评估末端轨迹和接触行为是否对齐[22] - FA-GRPO算法在动作层面而非流步层面构造PPO比例,使信用分配更贴近真实环境反馈;FlowScale利用噪声调度平衡各流步对整体梯度的贡献,提升训练稳定性[23][27] - 奖励模型基于视觉-语言模型,以任务文本和整段执行视频为输入,输出标量得分作为轨迹优势,替代手工设计的几何距离[26] 实验验证结果 - 在世界模型能力评估中,Prophet在AgiBot、DROID、LIBERO和BRIDGE等多数据集上,视觉逼真度和动作一致性均超越Nvidia的Cosmos与上海智元的Genie-envisioner[31][32][34] - 在仿真环境强化学习效果上,ProphRL为VLA-Adapter-0.5B模型带来最高25个百分点的成功率提升,为Pi0.5-3B模型带来最高16.7个百分点的成功率提升,为OpenVLA-OFT-7B模型带来最高19.4个百分点的成功率提升[37] - 在真实机器人验证中,基于UR30e机械臂的四个桌面操作任务显示,ProphRL相比纯监督微调在所有任务平均成功率上带来约24–30%的提升,其中Pi0.5-3B模型提升幅度最大,达到30个百分点[38]