Workflow
Physical Intelligence团队正式发布π*0.6!VLA+强化学习训练达到实际可用的鲁棒性水平
具身智能之心·2025-11-18 11:38

RECAP方法概述 - Physical Intelligence团队提出RECAP方法,使视觉语言动作模型能够通过强化学习在现实部署中实现自我改进[4] - RECAP方法通过优势条件机制实现VLA模型的强化学习训练,整合异构数据到自我改进过程,包括演示数据、在线收集数据以及专家远程干预数据[4][7] - 该方法首先通过离线强化学习预训练通用型VLA模型,随后通过机器人现场数据收集实现下游任务的专业化性能提升[4] 技术实现细节 - RECAP方法包含三个核心步骤:数据采集、价值函数训练和优势条件训练,通过重复执行这些步骤优化基础VLA模型[11] - 在数据采集阶段,系统运行VLA执行任务并为每个任务周期标注结果标签,可选择引入人工干预来为早期迭代中的错误提供修正范例[12] - 价值函数训练利用收集的全部数据训练大型多任务价值函数,该函数能检测故障并预估任务完成所需时间[13] - 优势条件训练在VLA前缀中加入基于价值函数推导优势值的最优性指标,提供从次优数据中基于价值函数提取更优策略的有效方法[13] 模型架构改进 - 基于VLA模型实例化RECAP,该模型是在基础上的升级版本,采用了更大型的主干网络和更多样化的条件机制[8] - 模型新增了基于二值化优势值的条件调控能力,使其能够通过价值函数来优化策略[8][14] - 基础视觉语言模型采用Gemma 3 4B模型,动作专家的规模增加到860M参数[19] - 价值函数采用670M参数视觉语言模型backbone,从Gemma 3初始化,并在少量多模态网络数据的混合集上联合训练以防止过拟合[20] 实验性能表现 - 在衣物折叠、咖啡制作和纸箱组装任务中,采用完整RECAP方法训练的模型实现任务吞吐量提升超过两倍[4][29] - 在高难度任务中,RECAP将任务失败率降低约50%,相当于故障率降低超过两倍[4][31] - 模型达到实际可用的鲁棒性水平:成功部署连续制作浓缩咖啡达13小时,在新环境中折叠陌生衣物持续运转超过两小时无中断[10] - 在工厂场景中组装实际包装所用纸箱的任务也展示了稳定的成功率表现[10][31] 训练流程优化 - 预训练阶段在多样化多任务多机器人数据集上进行离线强化学习,该数据集包含来自大量任务和不同机器人的数万小时示范数据[8][13] - 部署阶段采用迭代式离线更新模式,收集数据批次后重新训练模型并循环进行,而非实时更新策略与价值函数[23][37] - 价值函数和策略均从预训练检查点微调,而非上一轮迭代的模型,这有助于避免多轮迭代中的漂移[23] - 即使一轮迭代也能带来显著的结果改进,但随着RECAP方法迭代次数的增加,任务吞吐量实现持续提升[23][31]