机器人操控新范式：一篇VLA模型系统性综述

文章核心观点 - 基于大型视觉语言模型（VLM）的视觉-语言-动作（VLA）模型是机器人操控领域的变革性范式，通过语义理解和推理能力显著提升机器人在非结构化环境中的泛化执行能力 [1][4][5] - 哈尔滨工业大学（深圳）团队首次提出系统性分类法，将VLA模型划分为单体模型（Monolithic Models）和层级模型（Hierarchical Models），以解决架构多样性和研究碎片化问题 [1][6][8] - VLA模型与强化学习、免训练优化、人类视频学习和世界模型等前沿技术结合，未来方向包括记忆机制、4D感知和多智能体协作等 [1][58][91] 背景与演进 - 传统机器人操控方法依赖预定义任务规范，在非结构化环境中泛化能力有限，而VLM通过海量图文预训练跨越视觉与语言的语义鸿沟 [4][9][11] - 现代VLM（如LLaVA1.5、Qwen-VL）采用三组件架构：视觉编码器、投影器和大型语言模型，统一处理多模态任务并支持高级推理能力 [9][10] - VLA模型将机器人动作处理为文本token，与语言输出联合训练，实现语义理解能力飞跃（如RT-2相比RT-1在未见过指令任务上成功率显著提升） [12][13] 单体模型（Monolithic Models） - 单系统架构（如RT系列、OpenVLA）统一处理视觉、语言和动作生成，通过自回归解码生成动作token，参数量达70亿级别 [14][17][18] - 双系统架构（如π0、CogACT）分离快速反应的动作专家与慢速推理的VLM骨干，通过级联或并行方式协作，推理速度提升3倍以上 [15][35][30] - 性能增强方向包括3D/4D感知（如SpatialVLA、TraceVLA）、多模态融合（触觉、音频）和推理优化（动态token剪枝、1-bit量化） [21][23][31] 层级模型（Hierarchical Models） - 规划器+策略架构明确解耦高层规划与底层执行，生成可解释中间输出（如关键点、程序代码），支持长时程任务 [43][44][53] - 仅规划器方法（如Chain-of-Modality）生成可执行程序或文本指令，而规划器+策略模型（如HiRobot）通过扩散策略执行原子命令 [44][49][53] - 基于关键点的方法（如HAMSTER、RoboPoint）预测交互区域或轨迹路点，结合优化器生成动作，在7个泛化轴向上成功率提升20% [45][51][80] 前沿领域结合 - 强化学习通过密集奖励信号（如VLA-RL的RPRM模型）和离线-在线混合训练（如ReWiND）解决长时任务稀疏奖励问题 [59][60][61] - 免训练方法（如FlashVLA、EfficientVLA）通过触发机制和token复用跳过冗余计算，实现最高5倍训练加速 [62][63][64] - 人类视频学习（如UniVLA、LAPA）对齐人类-机器人交互特征，世界模型集成（如WorldVLA）通过预测未来状态优化动作规划 [65][66][68] 模型特性 - 多模态融合通过共享嵌入空间实现视觉、语言和动作的token级对齐，支持深度、触觉等模态扩展（如PointVLA集成点云数据） [69][71][73] - 指令遵循能力支持语义锚定（如ChatVLA-2理解白板数学问题）和思维链推理（如CoT-VLA预测视觉子目标） [74][76][75] - 跨领域泛化能力显著，如DexVLA实现跨机器人形态技能迁移，π0.5在分布外数据上成功率超90% [78][79][80] 数据集与基准 - 真实世界数据集（如OXE）整合22个机器人平台超100万演示，覆盖500多种技能，但长尾分布数据仍不足 [82][83][84] - 仿真基准（如BEHAVIOR、ALFRED）支持多阶段语言指令任务，CALVIN提供无约束指令下的长时程行为学习 [85][86] - 人类行为数据集（如Ego4D、EPIC-Kitchens）提供829小时密集手部追踪视频，支持精细化操作学习 [87][88] 未来方向 - 需开发融合真实世界复杂性和长期任务评估的基准，包含子任务成功率和抗干扰性等指标 [91] - 技术突破重点包括4D感知（整合深度与时间演化）、移动操作（导航与抓取协同）和多智能体协作（共享世界模型） [93][94][96] - 模型效率优化需平衡计算资源与实时需求，通过动态token剪枝和硬件友好量化降低延迟 [98]