OpenHelix 团队新作!Long-VLA:深入探究端到端VLA模型的长时瓶颈和有效解决方案
具身智能之心·2025-08-29 13:02
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 我们提出了Long-VLA,是首个专门针对长时任务设计的端到端 VLA 模型。其核心创新在于引入阶段感知的 输入掩码,将子任务划分为"移动阶段"和"交互阶 段",并在不同阶段动态调整视觉模态输入,使模型能够在移动时关注全局空间线索,在交互时聚焦局部精细感知。通过这种方式,Long-VLA 在保持统—架构 和端到端学习优势的 同时,有效解决了技能链问题。实验结果显示,无论在仿真环境还是真实机器人平台上,Long-VLA 都显著超越现有方法,确立了新的性能 基准,在机器人长时任务研究中具有突破意义。 标题:Long-VLA: Unleashing Long-Horizon Capability of Vision Language Action Model for Robot Manipulation 链接:https://arxiv.org/abs/ ...