近300篇工作！伦敦国王学院x港理工全面解构VLA模型，一份清晰系统的导航图

文章核心观点 - 该综述对视觉-语言-动作模型进行了全面剖析，指出VLA模型正推动机器人技术变革，其发展遵循“基础模块→历史里程碑→核心挑战”的逻辑，五大核心挑战是当前研究的关键突破口 [1] 基础模块与架构趋势 - VLA系统由感知、大脑、动作三大核心模块组成，近年呈现明显技术迭代趋势 [3] - 感知模块正从传统视觉骨干网络转向语言对齐Transformer，并新增几何表征以提升操作精度 [10] - 大脑模块向预训练视觉语言模型收敛，利用互联网级知识实现零样本泛化 [10] - 动作模块从离散令牌化转向连续生成建模，追求平滑的多模态分布建模 [10] - 机器人感知编码器以CNN和ViT为主，语言编码器从Transformer演进至LLM和VLM [10] - 机器人大脑主流架构包括Transformer、扩散Transformer、混合架构和VLM [10] - 机器人动作表征分离散、连续、混合三类，解码方式包括自回归、非自回归和混合解码 [10] 发展里程碑 - 2017-2019年：奠定基础，VLN、EmbodiedQA等基准推动语言与视觉环境对齐 [13] - 2020-2021年：转向长时推理，ALFRED、CLIPort实现语言引导的机器人操作零样本泛化 [13] - 2022年：大模型时代开启，RT-1、RT-2构建统一VLA框架，实现端到端视觉-语言-动作学习 [13] - 2023年：技术突破集中，PaLM-E统一多模态输入空间，Diffusion Policy革新动作建模范式，Open X-Embodiment提供大规模跨机器人数据 [13] - 2024年：开源与泛化推进，OpenVLA降低研究门槛，Octo实现跨平台多任务控制，3D-VLA转向全3D世界建模 [13] - 2025年：多元进化，Humanoid-VLA拓展至人形机器人，Cosmos-Reason1标准化物理推理 [13] 核心挑战与解决方案 - 多模态对齐与物理世界建模：核心问题是弥合语义、感知与物理交互的鸿沟，实现从2D图像到时空表征的升级，解决方案包括通过对比学习实现模态对齐，引入点云、体素等提升空间推理能力 [18] - 复杂指令理解与高效执行：核心问题是解析复杂/模糊指令，分解长时任务，实现错误自修复与低延迟执行，解决方案包括采用多模态序列建模处理混合指令，通过分层规划拆解任务 [24] - 从泛化到持续适应：核心问题是实现开放世界泛化，避免持续学习中的遗忘，缩小仿真到现实的差距，解决方案包括利用多任务预训练、互联网视频迁移知识，通过参数隔离缓解遗忘 [25] - 安全、可解释性与可靠交互：核心问题是保障物理安全，提升决策透明度，建立人机信任，解决方案包括注入安全约束、通过Constitutional AI对齐人类价值观，输出中间推理过程增强可解释性 [26] - 数据构建与基准测试标准：核心问题是获取大规模异质数据，建立统一的评估体系，解决方案包括通过表征统一、数据增强整合多源数据，开发覆盖复杂任务与泛化能力的基准测试 [27] 数据集与评估基准 - 模拟数据集：例如ALFRED包含8,055个专家演示和约120个室内场景，LIBERO包含约6,500个演示和130项技能，VLA-3D包含970万对参考数据和11.5千个重建的3D房间 [6] - 真实世界机器人操作数据集：例如BridgeData V2包含60,096条轨迹，DROID包含约76千条轨迹，Open X-Embodiment包含超过100万条轨迹和527项技能，AgiBot World包含超过100万条轨迹和217项任务 [6] - 以人为中心及第一人称数据集：例如Ego4D包含约3,700小时视频，HOI4D包含约4,000个序列，HD-EPIC包含约4,881个物体行程 [6] - 评估基准：包括用于语言条件操作的RLBench、ManiSkill系列，用于长时任务完成的ALFRED、CALVIN、TEACh，用于高级认知能力的LIBERO、RoboCAS，以及用于评估基础模型的EmbodiedBench、EWM Bench、RoboTwin [30] 应用场景与未来方向 - 主要应用场景包括家庭机器人和工业与野外机器人，前者需处理非结构化环境和长时任务，后者需实现高精度操作与安全合规 [29] - 未来趋势包括发展原生多模态架构、形态无关表征，构建自监督探索与在线强化学习的闭环进化体系，推动评估从二元成功率转向综合诊断测试 [30]