VLA统一架构新突破:自回归世界模型引领具身智能
机器之心·2025-07-10 12:26
世界模型与多模态融合 - 世界模型正加速成为连接感知、理解与决策的关键基座,重塑多模态边界[4] - 现有方法多以语言模态为中心,忽视视觉信息的时序动态与因果结构[5] - UniVLA通过原生建模视觉、语言与动作信号,引入世界模型增强下游决策性能[5][14] UniVLA模型架构 - 采用全离散自回归机制,统一视觉、语言与动作信号的离散token表示[8][9] - 构建视觉-动作交错的多模态时序序列,支持原生统一建模[9] - 自回归训练范式高效稳定,具备大规模扩展潜力[9][24] 技术突破与性能表现 - 后训练阶段仅需海量视频数据,无需依赖大量动作标签即可提升决策性能[14] - 在CALVIN基准上平均成功率达95.5%,长程任务(LONG)成功率94.0%,显著超越TO-FAST的60.2%[19] - LIBERO基准整体成功率69.8%,较Robo VLMs提升32.3个百分点[20] - SimplerEnv任务中世界模型策略取得64.6%成功率,较基线提升64.6个百分点[16] 应用场景与未来方向 - 展现出真机操控和自动驾驶等现实场景的应用潜力[5] - 提出视频版VLA架构,有效捕捉时空动态特征[23] - 未来将探索与多模态强化学习深度融合,提升开放世界决策能力[24] 行业影响 - 刷新CALVIN、LIBERO、SimplerEnv等主流具身智能基准的SOTA纪录[5][17][18] - 为机器人从视频中学习真实世界知识提供新路径[15] - 开创区别于传统VLM拓展路径的全新技术路线[22]