Workflow
机器人操控新范式:一篇VLA模型系统性综述 | Jinqiu Select
锦秋集·2025-09-02 21:41

01 机器人操控是具身AI的核心挑战,传统方法在非结构化的真实世界中泛化能力有限。 近年来,基于大型视觉语言模型(VLM)的视觉-语言-动作(VLA)模型成为一种变革性范式,赋予了机器人前所未有的语义理解、推理和泛化执行能力,但也带 来了架构多样、研究碎片化的问题。 哈尔滨工业大学(深圳)的研究团队近期发表了综述《Large VLM-based Vision-Language-Action Models for Robotic Manipulation》, 旨在解决现有分类法的矛盾之 处、缓解研究的碎片化问题 。作为该领域的首次系统性、面向分类的评述,文章首先明确定义了VLA模型,并提出了一个清晰的架构范式,将现有模型划分为两大 类: 在此基础上,该综述还深入探讨了VLA模型与前沿领域的结合(包括 强化学习 、免训练优化、从人类视频中学习 和世界模型集成),系统性地总结了其特性、数 据集与基准,并指出了未来的前景方向,如 记忆机制、4D感知、高效自适应 和多智能体协作等。 锦秋基金(公众号:锦秋集;ID:jqcapital)认为,这篇综述为快速发展的VLA领域提供了一个急需的、结构化的技术蓝图与参照框架,有助 ...