RECAP - 财报，业绩电话会，研报，新闻

RECAP

搜索文档

36氪· 2025-11-20 15:38

模型性能与突破 - 机器人基础模型π*0.6在执行制作意式浓缩咖啡、折叠衣物、组装包装纸箱等任务时，成功率均达到90%以上[1] - 模型表现出极高的稳定性，能够连续13小时制作咖啡、连续2小时折叠衣物而无需人为重置[23] - 在最难的任务中，RECAP方法将任务吞吐量提高了一倍以上，并将任务失败率降低了约2倍，相比于仅进行监督微调的模型[20] 核心方法与技术 - π*0.6的核心贡献在于提出了一种通用训练方法RECAP，即基于优势条件策略的经验与纠偏强化学习[8] - RECAP方法包含三个阶段：离线强化学习、使用人类示范进行微调、以及结合自主经验和专家在线纠偏的在线阶段[10] - 该方法采用“优势条件化”策略，通过价值函数判断动作质量，再将策略更新转化为大模型擅长的监督学习问题，而非传统的策略梯度方法[13] - 模型架构方面，π0.6的Backbone从Gemma扩展到Gemma3，参数量达4B，Action Expert参数量升级到860M[20] 学习机制创新 - RECAP方法彻底扭转了机器人只会逼近"真值"的模仿学习模式，让机器人能从自己的错误中成长[3] - 该方法通过教练式纠偏，当机器人犯错时专家示范如何恢复，弥补了传统模仿数据的不足，是防止错误累积的关键[27][28] - 通过训练价值函数来解决信用分配问题，帮助机器人识别关键步骤与错误来源，使其具备从经验中变强的能力[31][39] - 优势条件化训练让模型在保留全部经验的前提下，从失败中学习，表现超越单纯示范数据的水平[42]

量子位· 2025-11-20 08:30

模型性能与突破 - Physical Intelligence公司推出的机器人基础模型π*0.6在多项现实任务中表现出色，例如连续一整天制作意式浓缩咖啡和数小时折叠衣物，任务成功率均达到90%以上[2][28] - 在最具挑战性的任务（如折叠多样化衣物和制作咖啡）中，其采用的RECAP方法将任务吞吐量（每小时成功次数）提升了一倍以上，并将任务失败率降低了约2倍，相比仅进行监督微调的模型有显著提升[27] - 模型展现出极高的稳定性，能够连续13小时制作咖啡、连续2小时折叠衣物而无需人为重置[28] 核心技术：RECAP方法 - π*0.6的核心突破在于引入了一种名为RECAP（基于优势条件策略的经验与纠偏强化学习）的通用训练方法，该方法彻底改变了机器人只会逼近“真值”的模仿学习模式，使其能从自身错误中成长[3][10] - RECAP方法包含三个阶段：指导（用人类示范教基础动作）、辅导（通过纠错指导修正错误）、练习（从自主经验中不断优化）[7][12] - 该方法采用“优势条件化”策略，通过价值函数判断动作质量，再将策略更新转化为大模型擅长的监督学习问题，从而避免了传统策略梯度算法（如PPO、REINFORCE）在异构机器人数据和Flow Matching动作生成模型上的不适用性[15][16][17][18][19] 模型架构与训练 - π*0.6是Physical Intelligence公司最新的视觉-语言-动作模型，其Backbone从之前模型的Gemma（2.6B参数）升级到Gemma3（4B参数），动作专家模型的参数量也增至860M[8][25] - 模型架构延续了前代设计，通过流匹配和离散动作token输出生成动作片段[26] - 训练过程分为离线强化学习（基于多机器人、多任务的示范数据训练）、微调（用人类示范适配具体任务）和在线阶段（机器人自主执行任务并结合专家纠偏更新）[20] 从错误中学习的能力 - RECAP方法最具启发性的特点是让机器人能够从失败经验中学习，通过专家纠错和强化学习相结合的方式，解决了传统模仿学习在持续互动系统中因滚雪球式误差导致任务失败的关键障碍[29][36][37][38] - 该方法通过训练价值函数来应对信用分配挑战，价值函数能预测状态优劣，从而识别导致好结果或坏结果的关键动作，为模型提供判断信号[45][47][50][51][52] - 优势条件化训练使模型能在保留所有经验（包括成功和失败）的前提下，从失败中学习，其表现因此超越了单纯依赖示范数据的水平[54][55]