G0双系统框架

搜索文档
Galaxea 团队推出:大规模高质量开放世界机器人数据集与G0双系统VLA模型
具身智能之心· 2025-09-03 11:23
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Galaxea Team 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 核心贡献总览 Galaxea开放世界数据集是一个在真实人类生活与工作环境中记录的大规模、多样化机器人行为集合。所有演示数据均采用统一的机器人实体进行采 集,并配有精确的子任务级语言标注,以同时支持训练与评估。基于此数据集,提出G0双系统框架:通过视觉语言模型(VLM)进行多模态规划,并 与视觉-语言-动作模型(VLA)协同实现细粒度执行。G0采用三阶段课程训练:跨实体预训练、单实体预训练和任务特定后训练。通过涵盖桌面操作、 少样本学习和长程移动操作的综合基准测试,方法展现出显著有效性。特别值得注意的是,单实体预训练阶段与Galaxea开放世界数据集的结合对实现 强劲性能具有关键作用。 本工作聚焦机器人视觉-语言-动作(VLA)模型的落地痛点—— 大规模高质量开放世界机器人数据稀缺 与 模型泛化能力不足 ,提出 两大 ...