Workflow
分析了102个VLA模型、26个数据集和12个仿真平台
自动驾驶之心·2025-07-22 10:18

点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 出发点与工作背景 视觉 - 语言 - 动作(VLA)模型是机器人技术的变革性突破,其核心是将视觉感知、自然语言理解与具身 控制整合到单一学习框架中。本综述聚焦机器人操作与指令驱动自主性,全面梳理了 102 个 VLA 模型、26 个基础数据集和 12 个仿真平台,它们共同推动了 VLA 模型的发展与评估。模型被归为不同架构范式,体 现了视觉、语言和控制在机器人系统中整合的多样策略。对于基础数据集,基于任务复杂性、模态多样性 和规模建立新评估标准,还通过二维框架按语义丰富度和多模态对齐进行组织,揭示了数据领域的未探索 区域。仿真环境的评估围绕大规模数据生成效率、虚实迁移能力及任务多样性展开。综合学术与工业界成 果,明确了当前挑战,并指出可扩展预训练协议、模块化架构设计和稳健多模态对齐策略等发展方向。本 综述兼具技术参考价值与概念路线图意义,涵盖从数 ...