Workflow
Recap方法
icon
搜索文档
真机RL!最强VLA模型π*0.6来了,机器人在办公室开起咖啡厅
机器之心· 2025-11-18 11:30
公司及产品发布 - 美国具身智能创业公司Physical Intelligence发布最新机器人基础模型π*0.6 [2] - 公司2024年获得超过4亿美元融资,估值突破20亿美元,成为具身智能赛道最受瞩目的玩家之一 [3] - 公司技术路线强调“视觉-语言-动作”模型,通过大规模数据训练使机器人能在未知环境中灵活执行任务 [3] 模型性能与能力 - 通过对π*0.6模型进行微调,可在除处理衣物外的多种任务上达到90%成功率 [6] - 模型能够连续运行一整天制作意式浓缩咖啡,或连续数小时不间断地折叠衣物 [9] - 利用Recap方法训练π*0.6可将最困难任务的吞吐量提高一倍以上,并将失败率降低2倍或更多 [9] - 对于制作意式咖啡等最困难任务,加入机器人真实执行经验后,吞吐量和成功率都提升了超过两倍 [27] 核心技术方法:Recap - Recap方法实现了演示训练、纠错指导和从自主经验中改进三个步骤 [9] - 该方法通过训练价值函数解决强化学习中的信用分配关键挑战 [15][20] - 在训练中保留全部数据并将价值变化注释作为输入,使模型选择高优势的动作 [20] - 训练过程包括离线强化学习预训练、任务级微调,并结合专家纠正和自主经验反馈 [25] 具体应用场景挑战 - 纸箱组装任务需执行复杂物理操作并处理如一次抓起多个箱子等边缘情况 [33] - 衣物折叠任务需处理不同衣物种类和材质的多样性,实现泛化 [33] - 意式咖啡制作任务涉及长操作序列,需判断设备状态及完成清洁工作 [33] - π*0.6能够以超过90%的成功率完成这些极具挑战性的步骤 [34] 行业发展趋势 - 从经验中学习可能成为实现高性能机器人模型不可或缺的组成部分 [37] - 未来机器人学习将结合专家示范定义新行为、纠正式指导改进策略、自主经验打磨行为 [37]