想象空间自进化循环
搜索文档
在「想象」中练就真机能力:RISE,让VLA强化学习告别真机试错
机器之心· 2026-03-17 19:31
文章核心观点 - 香港大学OpenDriveLab团队提出的RISE框架,通过构建组合式、多视角世界模型,使机器人在虚拟想象空间中进行强化学习,有效解决了VLA模型在长程复杂任务中面临的两大根本挑战:模仿学习的误差累积和真机强化学习的高成本[2] - RISE框架在三大极具挑战性的真机长程任务中,性能相比SOTA基线实现跨越式提升,部分任务成功率涨幅超45%,展现了从物理试错到思维进化的具身智能范式跃迁潜力[2][23][35] 传统VLA模型的落地难题 - VLA模型落地面临三重枷锁:模仿学习的暴露偏差、真机强化学习的现实难题、以及现有世界模型的能力短板[7][8] - 模仿学习依赖专家演示数据,模型在真实执行中一旦偏离轨迹便无法自我修正,导致长程任务中误差逐步放大[9][10][13] - 真机强化学习存在样本效率低、安全风险高、重置成本高三重现实约束,需要海量交互数据(动辄数百万次尝试)且易造成硬件损坏[11][13] - 现有生成式世界模型难以同时兼顾动作可控性和长程一致性,导致无法精准跟随动作指令、长序列视频预测失真或违背物理规律,无法作为强化学习的有效训练环境[11][13] RISE框架的核心创新与架构 - RISE的核心创新在于将物理交互完全迁移到由组合式世界模型构建的想象空间中,通过虚实解耦的设计,解决了高保真模拟问题并构建了高效的策略自进化闭环[16][17] - 组合式世界模型采用解耦设计,分为可控动力学模型和进度价值模型两个独立优化模块[18] - 可控动力学模型(模拟器)采用Task-Centric Batching策略,专注于动作指令的跟随,实现虚拟动作与真实操作的高度对齐[18] - 进度价值模型(裁判员)融合进度估计和时序差分学习,为长程任务提供密集奖励信号,并增强对细微失败的敏感性[18] - RISE构建了完全在想象空间运行的在线强化学习闭环,包含Rollout、评估、训练三个阶段,无需任何真机交互即可实现策略高效迭代[19][20] - 该架构通过解耦和对齐,让虚拟想象空间无限贴近真实物理世界,其核心逻辑是“模型解耦建沙盒,轨迹迭代优策略”[21][22] RISE的性能验证结果 - 在动态积木分拣、背包装袋、纸盒闭合三大真机长程任务中,RISE相比SOTA基线实现成功率跨越式提升[24][25] - 动态积木分拣:成功率从RECAP的50%提升至85%,涨幅35个百分点[26][29] - 背包装袋:成功率从30%提升至85%,涨幅45个百分点[26][29] - 纸盒闭合:成功率高达95%[26][29] - 消融实验证明RISE各模块设计均为性能关键,任何组件缺失都会导致性能显著下降[27] - 去除Task-Centric Batching,任务完成率直接下跌[27][30] - 去除TD Learning,价值模型无法敏锐捕捉细微失败状态[27][30] - 脱离在线动作与在线状态,模型泛化能力大幅降低[27][30] - RISE训练出的策略具备从失败中恢复的真实智能,展现出抗干扰和位置泛化能力[28][31] - 在模型生成质量评估中,RISE的动力学模型在FVD和EPE等定量指标上均实现最优,视频生成精度和动作跟随能力更优,且能生成清晰、符合物理规律的多视角未来帧[32][34] 行业启示与未来展望 - RISE框架的价值在于对学习本质的重估,它将昂贵、高风险的物理交互成本转化为可扩展的计算成本,使机器人在思维沙盒中完成自我博弈与迭代[35] - 该框架标志着从隐向量世界模型到组合式多视角、像素级世界模型的底层范式跃迁,想象训练正在成为具身智能发展的核心方向[35] - 未来,当世界模型精度逼近物理现实,机器人有望在虚拟想象空间中预演和打磨技能,实现“满级出厂”,从而大幅降低物理世界对智能体成长的代价[35][36][37]