大型视觉语言模型(VLM)

搜索文档
机器人操控新范式:一篇VLA模型系统性综述 | Jinqiu Select
锦秋集· 2025-09-02 21:41
01 机器人操控是具身AI的核心挑战,传统方法在非结构化的真实世界中泛化能力有限。 近年来,基于大型视觉语言模型(VLM)的视觉-语言-动作(VLA)模型成为一种变革性范式,赋予了机器人前所未有的语义理解、推理和泛化执行能力,但也带 来了架构多样、研究碎片化的问题。 哈尔滨工业大学(深圳)的研究团队近期发表了综述《Large VLM-based Vision-Language-Action Models for Robotic Manipulation》, 旨在解决现有分类法的矛盾之 处、缓解研究的碎片化问题 。作为该领域的首次系统性、面向分类的评述,文章首先明确定义了VLA模型,并提出了一个清晰的架构范式,将现有模型划分为两大 类: 在此基础上,该综述还深入探讨了VLA模型与前沿领域的结合(包括 强化学习 、免训练优化、从人类视频中学习 和世界模型集成),系统性地总结了其特性、数 据集与基准,并指出了未来的前景方向,如 记忆机制、4D感知、高效自适应 和多智能体协作等。 锦秋基金(公众号:锦秋集;ID:jqcapital)认为,这篇综述为快速发展的VLA领域提供了一个急需的、结构化的技术蓝图与参照框架,有助 ...
基于大型VLM的VLA模型如何改一步一步推动机器人操作任务的发展?
具身智能之心· 2025-08-26 08:03
文章核心观点 - 大型视觉语言模型VLM正推动机器人操作从预定义任务向开放世界自主执行转变 通过视觉语言动作VLA模型整合感知 语言理解和动作生成 使机器人能理解自然语言指令并在动态环境中执行复杂任务[3][4][16] - 哈尔滨工业大学深圳团队发布首篇系统综述 提出VLA模型的单体与分层二元分类体系 梳理技术发展 核心特征及数据集 并指出未来研究方向如记忆机制和3D4D感知升级[5][9][10][74] VLA模型架构分类 - 单体模型整合感知 语言理解和动作生成于单一或双系统架构 无显式中间表示 包括单系统模型统一输入并自回归解码输出动作 以及双系统模型分离高层推理与低层动作生成以平衡精度与实时性[19][20][30] - 分层模型显式分离规划与执行 通过人类可解释中间表示如子任务 关键点或程序连接规划器与策略器 分为仅规划器生成中间表示依赖现成策略器 以及规划器加策略器端到端优化规划与执行[19][21][41][48] 单体模型技术进展 - 经典自回归解码范式将连续动作离散化为token序列 VLM自回归生成后解令牌为可执行动作 如RT-2以PaLM-E/PaLI-X为骨干训练互联网与机器人数据 将动作视为语言任务提升语义理解与泛化性[23][24] - 模型性能增强通过扩展感知模态如3D点云 4D时空线索和触觉听觉 提升推理能力如引入思维链和分层闭环控制 以及优化泛化性如统一动作空间和可逆训练 代表技术包括Leo Agent处理点云和CoT-VLA预测子目标[25][26] - 推理效率优化从架构 参数和解码策略三方面降低开销 如RoboMamba采用Mamba架构达Transformer三倍速度 BitVLA用1-bit权重压缩模型 以及PD-VLA并行解码加速动作生成[28][29] 分层模型技术进展 - 仅规划器方法生成程序 关键点或子任务等中间表示 依赖现成策略器执行 如基于程序的Chain-of-Modality生成Python代码控制机器人 基于关键点的MoManipVLA预测路点优化轨迹 以及基于子任务的PaLM-E统一VQA与指令生成[42][43][45][47] - 规划器加策略器端到端优化规划与执行 基于关键点方法如HAMSTER预测轨迹关键点指导策略 基于子任务方法如HiRobot分解开放指令为原子命令后执行 代表技术还有DexVLA结合VLM规划器与扩散策略器处理长程任务[49][50][51][52] 其他先进技术领域 - 基于强化学习方法通过在线交互或离线轨迹优化VLA策略 解决奖励稀疏和样本效率问题 如VLA-RL训练过程奖励模型 ReWiND以目标进度为奖励 以及ConRFT结合离线与在线训练[54][55][63] - 无训练方法通过架构或计算优化提升效率 如FlashVLA稳定场景跳过解码 EfficientVLA剪枝冗余语言层和过滤视觉令牌 以及PD-VLA并行不动点迭代加速[56][57][58] - 从人类视频学习利用人类与机器人交互结构相似性迁移任务知识 如UniVLA从无标注视频学习任务中心潜在动作 LAPA用VQ-VAE量化动作预训练 以及3D-VLA融合视频提升3D推理[59][60] - 基于世界模型整合预测环境动态的紧凑表示 通过模拟未来状态优化动作规划 如WorldVLA联合预测视觉结果与生成动作 World4Omni生成子目标图像指导策略 以及V-JEPA 2-AC通过模拟潜在状态做规划[61][62] 核心特征与能力 - 多模态融合通过共享嵌入空间减少语义偏移 令牌级整合捕捉跨模态依赖 以及全面模态兼容性无缝整合点云 触觉和音频等新模态 代表技术包括PointVLA加入点云编码器和VTLA融合触觉输入[64] - 指令遵循依托语义理解与推理实现灵活响应 包括语义指令定位动态解读模糊指令 任务分解与协作拆分子目标 以及思维链推理预测未来视觉状态提升可靠性 如ChatVLA-2理解白板数学问题[65] - 多维度泛化实现跨任务 跨领域和跨载体适配 如DexVLA无需调优完成多样操作 π₀通过异构数据联合训练在家庭环境成功率超90% 以及HAMSTER在七个泛化维度成功率比OpenVLA高20%[65] 数据集与基准测试 - 真实世界数据集捕捉环境复杂性支持语言与动作对齐 如OXE整合22个机器人平台的100万+多模态演示 RH20T支持147项任务单样本学习 以及DROID含564项自然场景远程操作演示[66][67] - 模拟数据集提供可扩展安全训练环境 如BEHAVIOR支持杂乱家庭环境多步骤控制 CALVIN支持无约束语言指令长期操作 以及SIMPLER通过校准环境减少模拟到现实差距[67][68] - 人类行为数据集提供语义丰富交互先验 如Ego4D含3000小时第一视角视频 EPIC-Kitchens提供细粒度烹饪任务视频 以及EgoDex含829小时3D手部追踪视频[68][69] - 具身数据集聚焦规划与推理能力评估 如OpenEQA评估功能与常识推理 LoTa-Bench验证LLM生成规划可执行性 以及MT-EQA支持多目标推理[69][70] 未来研究方向 - 需优化数据集与基准测试 结合大规模真实数据采集与复杂任务套件 引入多维度评估指标解决现实差距与任务单一问题 并开发记忆机制与长期规划转向目标驱动连贯动作[74][75] - 技术升级包括3D与4D感知整合深度与时间动态信息 移动操作整合自适应策略 多智能体协作构建共享世界模型 开放世界终身学习设计增量知识积累 以及模型效率提升通过动态令牌修剪和量化[75]