核心技术框架:Recap - Physical Intelligence公司发布名为Recap的结构化强化学习框架,旨在解决机器人从“能做”到“能稳定做”的挑战 [2] - Recap框架构建一个前所未有的三段式训练管线:演示(demonstration)+ 纠正(correction)+ 机器人自主rollouts(RL on robot),三类数据在统一的强化学习体系中协同工作 [2] - 该框架首次展示如何利用纠正数据结合价值函数和优势来系统性地抵消机器人策略中最顽固的难题——误差累积 [3] 模型性能与突破 - 应用Recap训练出的π0.6模型是一款拥有50亿参数的视觉语言动作模型,能够处理异构提示并吸收执行质量评价 [3] - 在最具挑战性的任务上,模型处理能力提升了一倍以上,失败率降低到二分之一甚至更低,达到可向商业部署过渡的性能门槛 [3][10] - 在真实场景中,π0.6模型可实现连续一整天制作浓缩咖啡、数小时不间断折叠未见过的衣物、以及在工厂中稳定组装真实包装盒子的稳健水平 [10] - 在上述复杂任务上,π*0.6模型实现了超过90%的成功率 [25] 行业痛点与解决方案 - 当前机器人基础模型主要依赖人力收集的演示数据,存在人力成本高、策略水平限于人类、无法自我提升等局限性 [2][27] - 仅靠模仿学习的视觉语言动作模型在物理世界中会因细小失误累积形成复合错误,导致任务失败,这是实现高可靠性系统的关键障碍 [11] - Recap通过两种方式从不良经验数据中获取训练信号:一是由专家提供纠正指导,二是让机器人通过强化学习根据任务结果自行判断行为好坏 [13] - 强化学习中的核心挑战是信用分配问题,Recap通过引入价值函数作为“好坏评分器”,并利用优势来为动作打标签,从而解决此问题 [16] 训练方法与数据应用 - Recap的第一阶段是使用离线强化学习对模型进行预训练,不同于基础模型所采用的纯监督学习方案 [19] - 训练流程包括先通过任务相关示范对模型进行微调,再利用真实机器人上收集的额外数据继续做强化学习训练,结合修正指导和奖励反馈 [19] - 不同数据源服务于不同目的:专家演示用于定义新行为,辅导用于完善策略,自主经验则可能成为最大数据源用于完善行为直至超越人类表现 [27][28] 具体应用场景挑战 - 盒子组装任务的挑战在于完成复杂的物理操作流程并高频重复,同时需处理如纸箱黏连等边缘情况 [24] - 洗衣任务主要难在变化性和泛化能力,机器人需适应不同的初始状态和种类繁多的衣物,以及不同的折叠策略与材质特性 [24] - 制作浓缩咖啡饮品的难点在于长流程且环环相扣,要求模型具备高层语言策略以控制等待设备工作及后续清洁等时序性动作 [24]
Physical Intelligence最新发布的VLA模型,为什么是机器人通往规模化部署的拐点?|Jinqiu Select
锦秋集·2025-11-18 19:13