π0.7发布，VLA押出了机器人的GPT-3时刻

模型发布与核心突破 - Physical Intelligence公司发布了全新的视觉-语言-动作模型π0.7，该模型在机器人领域首次证明了组合泛化能力 [1][2] - 模型的核心洞见是“多样化的数据需要多样化的prompt”，通过为训练数据添加丰富的上下文元数据，使模型能够区分数据质量并有效学习，从而解锁了使用多样化、非完美数据源的能力 [12][16][17][19] - 这一方法带来了“涌现”能力，使通才模型在未进行任务专项训练的情况下，性能追平甚至超过了经过微调的专家模型，标志着具身智能领域的一个关键转折点 [20][22][28] 关键性能与能力展示 - 在开箱即用的测试中，π0.7在“做咖啡”、“叠衣服”、“装箱”三个复杂任务上，追平了其前代模型π0.6经过专门微调的专家模型（包括RL specialist和SFT specialist） [23][25][26] - 在“叠衣服”和“装箱”这两个最难的任务上，π0.7比RL specialist单位时间内完成的次数更多 [27] - 模型展现出四种关键的涌现能力：开箱即用的灵巧操作、指令泛化、跨本体泛化和组合任务泛化 [29] - 在跨本体泛化测试中，模型将从一个机械臂（source robot）学到的策略，成功部署到另一个完全不同的机械臂（UR5e）上，任务完成度达到85.6%，与经验丰富的人类操作员（90.9%）基本持平，并且自主开发了更适合新机器人运动学的抓取策略 [33][34][36] - 模型能够理解并执行复杂的空间和语义指代指令，例如“拿起那个最大盘子里的水果” [32] - 模型能够组合已学的原子技能来解决全新的任务，例如在训练数据中从未见过“空气炸锅”的情况下，根据指令组合动作烤出红薯 [7][37][39] 方法论与技术创新 - π0.7模型规模为50亿参数，由三部分组成：负责视觉与语言理解的40亿参数Gemma3 VLM骨干、负责生成连续动作块的8.6亿参数Action expert transformer、以及负责生成次目标图像的World model [52][60] - 模型采用“知识隔离”训练方法，VLM骨干的梯度与Action expert隔离，保护从互联网数据中学到的语义知识不被机器人动作数据污染 [63] - 模型输入包含4路摄像头画面、机器人关节状态、任务指令、子任务指令、元数据以及World model实时生成的次目标图像，输出为50步的动作块序列 [54][55] - 其World model的作用并非预测物理演化，而是作为一个“消歧器”，将任务指令翻译成“成功时应该呈现的画面”，不参与决策规划，这与主流的世界模型技术路线有本质区别 [56][57][58] - 公司的技术路线坚持VLA范式，认为视觉-语言模型可以直接控制机器人，无需先构建内部的世界模拟器进行预测，这一判断从RT-2延续到π0.7 [65][74][75] - π0.7的贡献主要在于方法论而非新架构，其核心是提出了一套通过多样化prompt来利用多样化数据源的方法，解决了以往因数据质量参差不齐而难以利用的问题 [64][83][84] 数据利用与行业影响 - 一个关键实验表明，为训练数据添加质量元数据后，模型性能随数据量增加而提升，即使数据平均质量下降；反之，不加元数据则数据越多性能越差 [43][44][46][47] - 这一发现挑战了机器人领域长期以来的“数据清洗”惯例，表明只要模型知道每条数据的质量标签，低质量或失败的数据也能成为有用的学习信号，从而极大拓展了可用数据的范围 [48][49][50][51] - 该模型的出现被视为对当前火热的世界模型技术路线的一次重要挑战，表明更简单的VLA方法在数据规模扩大后，同样能实现强大的组合泛化能力，可能改变行业的技术风向 [69][91][94][95]