可执行性鸿沟
搜索文档
打破具身世界模型可执行性鸿沟 !港中深-跨维智能团队提出EVA框架,用强化学习让视频世界模型真正“动”起来
机器之心· 2026-03-26 14:47
行业技术趋势 - 利用视频生成模型为机器人构建“世界模型”是具身智能领域的热门技术路线,其采用“先预测、后执行”的解耦式规划范式,因兼具可解释性与开放场景泛化潜力而受到广泛关注[2] - 当前技术路线的关键瓶颈在于存在“可执行性鸿沟”,即生成的视频未必对应真实可执行的动作序列[3] - 行业正意识到,真正服务于机器人的世界模型不能只停留在二维视觉预测,而应进一步融入对世界物理的建模[3] 核心技术突破 (EVA框架) - 香港中文大学(深圳)与跨维智能的研究团队提出了名为Executable Video Alignment (EVA)的强化学习后训练框架,以解决可执行性鸿沟问题[3] - EVA框架的核心思想是将逆动力学模型(IDM)转化为奖励模型,通过强化学习直接优化视频生成过程,使生成结果不仅视觉真实,而且动作可行[3][11] - 该框架在奖励设计中显式引入了机器人执行层面的约束,如动作速度变化、加速度平滑性及高阶jerk正则项,并对异常动作进行惩罚,从而将视频生成分布拉回到机器人可行运动流形之上[12] 实验性能表现 - 在视觉规划质量评估中,经过强化学习对齐的EVA模型在“运动学合理性”指标上相比未对齐的基线模型大幅提升了20.9%[15] - 在RoboTwin 2.0基准的21个双臂任务仿真实验中,EVA(with RL)将平均任务成功率提升至52.6%,优于未对齐版本及其他基线方法[16][18] - 在真实机器人部署测试中,对于已见过的任务,EVA(with RL)的平均成功率达到64.0%[19] - 在5个全新的分布外任务上,EVA(with RL)将平均成功率提升至60.0%,显示出更强的新任务适应和跨场景泛化能力[19] 潜在应用与拓展方向 - EVA框架展现出面向具身智能的数据合成与增强潜力,可通过零样本方案自动生成具备合理物理约束的动态视频轨迹,为构建全合成具身数据流水线提供可能[23] - 该技术方向有助于缓解高质量机器人数据稀缺的问题,未来或可在不依赖人工遥操作的前提下,持续合成更丰富、更可信的具身数据[23][24] - EVA目前主要聚焦于运动学层面的对齐,其未来拓展可进一步引入更丰富的动力学约束,如接触力、摩擦、扭矩等真实物理因素[27] - 更“好用”的世界模型需要进一步走向对三维空间结构、真实物理规律和连续交互过程的统一理解,这与跨维智能围绕GS-World和EmbodiChain推进的研究主线一脉相承[27] 对行业发展的意义 - EVA工作促使行业重新思考视频世界模型的评价标准,对于机器人而言,关键不在于生成画面是否清晰连贯,而在于其对应的动作能否被可靠执行[21][26] - 该技术推动世界模型从“看起来合理”迈向“真正能够执行”,补上了视觉合理性与动作可执行性之间的关键缺口[26] - 这项进展标志着世界模型在迈向具身智能落地过程中迈出了关键一步,机器人需要的是能在真实三维物理世界中“做得出来”的世界模型[28][29]