分析了102个VLA模型、26个数据集和12个仿真平台

视觉-语言-动作(VLA)模型综述 - 核心观点：VLA模型通过整合视觉感知、语言理解和机器人控制，正在推动机器人技术的变革性发展[3][7] - 研究范围：全面梳理了102个VLA模型、26个基础数据集和12个仿真平台[3] - 发展趋势：从端到端框架向模块化架构演进，强调跨模态对齐和泛化能力[9][12] VLA模型架构 - 主流架构：基于Transformer的视觉和语言骨干网络，通过跨模态注意力机制融合[9] - 视觉编码器：CLIP、SigLIP和DINOv2等ViT变体成为主流选择[13] - 语言编码器：LLaMA、Vicuna系列和T5风格模型广泛应用[15] - 动作解码器：扩散策略因能建模复杂动作分布而受青睐[15][16] 数据集发展 - 数据集演进：从早期简单状态-动作映射发展到多模态、长时间跨度数据集[21] - 代表性数据集：Open X-Embodiment统一22个机器人实体和500多个任务数据[5] - 评估标准：建立任务复杂性和模态丰富度二维评估框架[22][24] 仿真平台 - 主要平台：AI2-THOR、Habitat和NVIDIA Isaac Sim等提供多模态支持[30][31] - 功能差异：从逼真室内导航到接触丰富的物理模拟各有侧重[31] - 发展趋势：强调GPU并行计算和大规模场景生成能力[33] 应用领域 - 主要方向：操作与任务泛化、自主移动、人机交互等六大领域[34] - 代表性模型：RT-2、Pi-0和CLIPort等在各自领域表现突出[37] - 技术路线：分为大型通用架构和模块化专用系统两大发展轨迹[38] 挑战与机遇 - 架构挑战：分词对齐、模态融合和跨实体泛化等关键技术瓶颈[39][40] - 数据限制：任务多样性不足、模态不平衡和注释成本高等问题[42] - 仿真差距：物理准确性、视觉真实性和语言接地API等亟待改进[44][45]