Workflow
π 0.7
icon
搜索文档
π0.7来了!涌现出组合泛化、跨本体迁移能力,VLA又行了?
机器之心· 2026-04-17 18:04
模型核心能力与突破 - 新模型π0.7展现出**组合泛化的初步迹象**,能够将训练中零散的技能和概念组合起来,以完成全新的、未在训练中直接演示过的任务,例如“用空气炸锅烤红薯” [3][4] - 模型具备**跨本体迁移能力**,能够控制从未训练过的、形态差异很大的机器人(如双臂UR5e系统)完成任务,其成功率与拥有平均**375小时**遥操作经验的专家在零样本操作时的成功率持平 [7] - 通过知识蒸馏,π0.7这一个通用模型学会了Recap算法优化的所有技巧,在叠衣服、做咖啡、折盒子等任务上的**成功率和速度都达到了之前专门训练的Recap专家模型水平,有时甚至更好**,实现了用一个通用模型替代多个任务专家模型 [9][12] 模型架构与规模 - π0.7基于π0.6的VLA架构与MEM记忆系统构建,新增多模态上下文条件调制 [24] - 模型包含以**Gemma3 4B**视觉语言模型初始化的VLM主干(含**0.4B**视觉编码器),以及**0.8B**参数的流匹配动作专家,**总参数约5B** [24] 成功关键因素 - 模型泛化能力强的核心在于**数据要杂,但提示要细**,汇集了几十种不同机器人的操作记录、人类演示视频及自主策略数据 [17][18] - 研究人员设计了一套**多样化的提示结构**,包含多模态信息,如文字描述、视觉子目标图片、期望任务时长、操作方式元数据等,以消除行为歧义并充分利用不同类型的数据源 [19][21][22] - 研究结论表明,**大规模多样数据 + 正确上下文**,就能自然涌现出惊人的组合泛化能力 [34] 应用场景与未来展望 - π0.7是一个通用模型,能够控制各种不同的机器人执行多种日常任务,如削蔬菜、用清洁剂擦玻璃门等 [15] - 未来,此类能力强、可操控的模型有望通过自身“思考”和利用提示遵循能力,解决更复杂、从未见过的任务,将语义推理转化为物理行动 [32] - 随着模型能力提升,**评估成为新的瓶颈**,如何定义泛化以及确定模型是否见过相关任务数据是未来需要发力的方向 [37]