具身智能与VLA模型发展历程 - 具身智能强调智能体通过与真实环境持续交互获得能力提升 操作机器人正从工厂走向家庭与开放环境[3] - 视觉-语言-动作模型将视觉感知 自然语言理解与动作控制深度融合 使机器人能理解环境 解析指令并自主执行复杂操作[3] - VLA发展分为三阶段:萌芽阶段(概念未形成但出现相似功能模型) 探索阶段(架构百花齐放 Transformer成核心) 快速发展阶段(架构多层化 多模态融合)[5][7][8][9] VLA模型核心架构 - 观测编码从CNN/RNN转向ViT和跨模态Transformer 融合三维视觉 触觉和力觉等多模态信息提升感知完整性[12] - 特征推理以Transformer为主流骨干 引入Diffusion Transformer 混合专家模型和线性复杂度结构增强推理能力[14] - 动作解码从离散token发展到连续控制预测 引入混合动作空间平衡长时规划与短时精度[15] - 分层系统采用上层负责环境建模与全局规划 下层专注高频率动作控制 提升语义推理和实时性[18] VLA训练数据体系 - 互联网图文数据提供视觉与语言先验但缺乏动态环境理解[17] - 视频数据蕴含自然交互时序特征 但缺少精确动作标注[17] - 仿真数据具低成本 规模化优势 但存在Sim2Real鸿沟[19] - 真实机器人数据直接反映传感器噪声与环境因素 但采集成本高昂限制规模扩展[19] - 列举13种真实机器人采集数据(如OXE)和10余种互联网 视频 仿真数据[20] VLA预训练方法 - 单一领域数据训练在单模态数据预训练 泛化能力有限[21] - 跨域数据分阶段训练先利用互联网图文/视频数据预训练 再引入机器人操作数据[21] - 跨域数据联合训练统一多模态对齐目标 直接学习感知-语言-动作协同关系[21] - 思维链增强显式建模推理链条 赋予任务分解与规划能力[21] VLA后训练方法 - 监督微调通过标注轨迹数据端到端训练 依赖数据多样性[22] - 强化微调利用交互数据优化策略 提升鲁棒性与长期任务能力但训练成本高[22] - 推理扩展通过评价机制和多次推理增强规划能力 无需增加训练成本[22] - 列举16种监督微调方法 10种强化微调方法及5种推理扩展方法[23] VLA模型评估体系 - 真实世界评估在实体机器人测试 结果可靠但成本高效率低[24] - 仿真器评估采用高保真平台(如Isaac Gym)支持大规模实验但存在迁移差距[24] - 世界模型评估利用环境模拟器快速迭代 但准确性依赖模型逼真度[24] - 列举7种仿真器评估环境包括SimplerEnv和LIBERO[24] 未来研究方向 - 泛化推理需提升跨任务 跨场景迁移能力 结合语言模型逻辑推理实现任务分解[26] - 精细操作需融合多模态感知信息(触觉/力觉/三维)建立精确动作生成机制[26] - 实时推理需探索高效架构(分层/线性复杂度) 模型压缩与端云协同实现低延迟控制[27]
VLA最新综述 | 中科院详解:面向具身操作的模型架构与演进
自动驾驶之心·2025-08-31 00:03