文章核心观点 - 视觉-语言-动作模型与在线强化学习结合已成为具身智能领域极具前景的研究方向,该方法能有效克服单纯模仿学习的局限,使机器人通过试错持续进步并提升鲁棒性 [1][4] - 行业面临将强化学习直接应用于大型VLA模型的三大难点:物理环境探索困难、模型易出现灾难性遗忘与训练不稳定、以及巨大的算力负担 [5][6] - 清华大学与星动纪元团队提出的iRe-VLA方法,通过“分阶段冻结参数”与“探索-内化”循环迭代,为上述难题提供了稳定、经济且高效的解决方案,并在仿真与真实世界实验中验证了其显著优势 [10][13][22] 一、VLA+RL的重要性与背景 - 在具身智能领域,将视觉-语言模型应用于机器人底层控制形成VLA模型,当前主流方法是通过模仿人类专家数据进行监督微调 [2] - 仅靠模仿学习存在局限,当遇到未见情况或专家数据不完美时,机器人表现会受限,难以实现鲁棒、持久的工作 [4] - 在线强化学习允许智能体通过试错发现更优解,超越离线强化学习受限于演示数据质量的瓶颈,是提升VLA模型能力的关键 [4] 二、强化学习应用于VLA的难点 - 环境差异:与在离线数据集上训练的大语言模型不同,机器人需在物理世界实时探索,且物理任务周期长、奖励稀疏,学习困难 [6] - 模型坍塌与不稳定性:直接对数十亿参数的VLA模型进行在线强化学习,极易导致“灾难性遗忘”或训练崩溃,性能可能倒退 [6] - 算力负担:在本地对大型模型进行全量梯度更新,硬件要求极高,通常超出机器人控制器的算力极限 [6] 三、行业解决方案与iRe-VLA方法 - 行业存在三种解决VLA强化学习困境的路径:外挂式干预、暴力美学式全量微调、以及从探索到内化的循环 [7][13] - iRe-VLA方法属于第三种路径,其核心是设计了一个两阶段循环迭代的学习流程,分而治之,动静结合 [10][22] - 模型架构:VLA模型由负责理解与知识的VLM主干(大脑)和负责输出控制信号的轻量级Action Head(四肢)组成,并使用LoRA技术避免全量微调 [11][12] - 第一阶段(在线强化学习探索):冻结VLM主干参数,仅训练轻量级的Action Head和Critic Head,使训练稳定且计算量小,可在单张4090显卡上运行,让机器人探索并找到成功轨迹 [15][18] - 第二阶段(监督学习内化):解冻VLM主干,对整个模型进行全参数微调,训练数据混合新探索的成功轨迹与原始专家数据,有效防止灾难性遗忘,此阶段计算量大,通常在云端A100集群进行 [24] - 流程总结:机器人先在“小参数模式”下大胆探索,找到方法后再在“全参数模式”下把经验固化到大脑中,循环往复 [22] 四、实验结果与分析 - 训练稳定性:实验显示,直接用PPO算法微调VLA模型会导致成功率曲线剧烈震荡甚至性能下降,而iRe-VLA的曲线稳步上升,证明了分阶段冻结参数对稳定训练至关重要 [27] - 仿真环境表现:在MetaWorld和Franka Kitchen基准测试中,iRe-VLA不仅在已学任务上表现更好(例如从43%提升到83%),还能学会完全没见过的任务 [30] - 具体数据对比: - 在MetaWorld的Button-Press-new任务上,SFT策略成功率为0.56,PPO-Replay为0.80,iRe-VLA达到1.00 [31] - 在Franka Kitchen的Slide-door-open任务上,SFT策略成功率为0.86,PPO-Replay为0.96,iRe-VLA达到0.99 [31] - 真实世界挑战:在抓取未见物体(如茄子、胡萝卜)的任务中,仅靠SFT的机器人成功率约35%,经过iRe-VLA在线学习后,成功率飙升到80% [32][34] - 泛化能力:训练后的模型去抓取完全未参与训练的第三类物体,成功率也从37%提升到了61% [34] - 消融实验:如果在第二阶段不解冻VLM主干,模型性能提升会遇到瓶颈,证明了解冻大模型参数对于利用其深层特征掌握复杂技能和提升泛化性是必要的 [35] 五、结论与意义 - 稳定性与经济性:iRe-VLA方法解决了大模型直接进行强化学习容易训练崩溃的问题,并通过巧妙的算力分配(本地轻量探索、云端重量消化),符合实际部署场景 [37][42] - 持续学习能力:该方法证明了机器人可以通过自我探索,在不遗忘旧技能的前提下,不断掌握新物体和新任务的操作技能 [42] - 行业影响:星动纪元的iRe-VLA与海外的PI π*0.6等工作,共同揭示了VLA在线强化学习技术的发展前景,为行业指明了方向 [40]
全球强化学习+VLA范式,PI*0.6背后都有这家中国公司技术伏笔
机器之心·2025-12-12 11:41