机器人操控

搜索文档
机器人操控新范式:一篇VLA模型系统性综述 | Jinqiu Select
锦秋集· 2025-09-02 21:41
01 机器人操控是具身AI的核心挑战,传统方法在非结构化的真实世界中泛化能力有限。 近年来,基于大型视觉语言模型(VLM)的视觉-语言-动作(VLA)模型成为一种变革性范式,赋予了机器人前所未有的语义理解、推理和泛化执行能力,但也带 来了架构多样、研究碎片化的问题。 哈尔滨工业大学(深圳)的研究团队近期发表了综述《Large VLM-based Vision-Language-Action Models for Robotic Manipulation》, 旨在解决现有分类法的矛盾之 处、缓解研究的碎片化问题 。作为该领域的首次系统性、面向分类的评述,文章首先明确定义了VLA模型,并提出了一个清晰的架构范式,将现有模型划分为两大 类: 在此基础上,该综述还深入探讨了VLA模型与前沿领域的结合(包括 强化学习 、免训练优化、从人类视频中学习 和世界模型集成),系统性地总结了其特性、数 据集与基准,并指出了未来的前景方向,如 记忆机制、4D感知、高效自适应 和多智能体协作等。 锦秋基金(公众号:锦秋集;ID:jqcapital)认为,这篇综述为快速发展的VLA领域提供了一个急需的、结构化的技术蓝图与参照框架,有助 ...
面向真实世界机器人操控!智元机器人推出统一世界模型平台
中证网· 2025-08-14 11:19
产品发布 - 智元机器人于8月14日推出统一世界模型平台Genie Envisioner(GE)[1] - GE将未来帧预测、策略学习与仿真评估整合进以视频生成为核心的闭环架构[1] - 该平台使机器人能在同一世界模型中完成从"看"到"想"再到"动"的端到端推理与执行[1] 技术突破 - GE直接在视觉空间中建模机器人与环境的交互动态 区别于行业主流VLA方法通过视觉-语言模型映射到语言空间的间接建模方式[1] - 该方法完整保留操控过程中的空间结构和时序演化信息 实现对机器人-环境动态更精确直接的建模[1] - 技术使机器人拥有高效跨本体泛化能力和长时序任务的精确执行能力[1] 开源计划与未来发展 - 团队将开源GE的全部代码、预训练模型和评测工具[1] - 未来计划扩展更多传感器模态并支持全身移动与人机协作[1] - 持续推动智能制造与服务机器人的落地应用[1]