全球强化学习+VLA范式,PI*0.6背后都有这家公司技术伏笔
具身智能之心·2025-12-13 09:02

文章核心观点 - 视觉-语言-动作模型与在线强化学习结合是具身智能领域一个极具前景的技术方向,能够解决仅靠模仿学习导致的泛化能力不足问题,使机器人更鲁棒、更通用 [4][8][50] - 清华大学与星动纪元团队提出的iRe-VLA方法,通过“分阶段冻结参数”和“探索-内化”的循环迭代,有效解决了对大模型直接进行强化学习时面临的稳定性、算力与模型坍塌三大难题,为VLA+RL的落地提供了可行方案 [16][19][48] - 实验证明,iRe-VLA方法在仿真与真实机器人任务中均显著提升了任务成功率与泛化能力,例如将抓取新物体的成功率从35%提升至80%,并在未训练过的物体上实现从37%到61%的成功率提升 [38][43] VLA+RL的重要性与挑战 - 重要性:仅靠监督微调的模仿学习在遇到未见情况或数据不完美时,机器人会不知所措,而在线强化学习允许机器人通过试错发现更优解,是实现机器人非常鲁棒、持久工作的关键 [8] - 挑战一:环境差异:物理机器人任务周期长、奖励稀疏,与在离线数据集上训练的聊天机器人不同,学习更为困难 [12] - 挑战二:模型坍塌与不稳定性:直接对数十亿参数的VLA模型进行在线强化学习,极易出现“灾难性遗忘”或训练崩溃,性能可能倒退 [12] - 挑战三:算力负担:在本地对几十亿参数模型进行全量梯度更新,硬件要求极高,常超出机器人控制器算力极限 [12] 行业解决方案路径 - 第一种:外挂式干预:训练额外价值函数或小型RL策略来引导冻结的VLA模型生成动作,VLA本身参数不变,没有真正发生质变 [19] - 第二种:暴力美学:直接使用PPO等算法全量微调VLA,勇气可嘉但易导致模型坍塌且算力要求高 [19] - 第三种:从探索到内化的循环:以iRe-VLA为代表,利用监督微调将RL探索出的高价值行为稳定内化为模型的原生能力,是更可行的路径 [13][19] iRe-VLA方法核心架构与流程 - 模型架构:VLA模型分为VLM主干和轻量级Action Head,采用LoRA技术避免全量微调 [17][18] - 第一阶段:在线强化学习冻结VLM主干,仅训练轻量级的Action Head和Critic Head,使训练稳定且计算量小,可在单张4090显卡上运行,让机器人安全探索 [21][26] - 第二阶段:监督学习解冻VLM主干,对整个模型进行全参数微调,训练数据混合了RL探索出的新成功轨迹与原始专家数据,防止灾难性遗忘,此阶段计算量大,通常在云端A100集群进行 [32] - 循环迭代:两个阶段交替进行,形成“探索-内化”的持续学习循环 [30] 实验结果与分析 - 训练稳定性:iRe-VLA训练曲线稳步上升,而标准PPO直接微调VLA则震荡剧烈,甚至性能下降,证明分阶段冻结参数至关重要 [35] - 仿真环境表现:在MetaWorld和Franka Kitchen基准测试中,iRe-VLA在已学任务上表现大幅提升,例如将成功率从43%提升到83%,并能学会完全没见过的任务 [38] - 真实世界表现:在Panda机械臂抓取新物体任务中,仅靠SFT的成功率约为35%,经iRe-VLA在线学习后,成功率飙升到了80%,且在完全未参与训练的第三类物体上,成功率也从37%提升至61%,显示出强大的泛化能力 [40][43] - 消融实验:若第二阶段不解冻VLM,模型性能提升将遇到瓶颈,证明解冻大模型参数对掌握复杂技能和提升泛化性是必要的 [45] 方法的意义与优势 - 经济性:巧妙分配算力,本地进行轻量级探索,云端进行重量级消化,符合实际部署场景 [54] - 持续学习:使机器人能通过自我探索,在不遗忘旧技能的前提下,不断掌握新物体和新任务的操作技能 [54] - 行业影响:iRe-VLA是全球最早将在线RL引入VLA的工作之一,被Physical Intelligence的π*0.6论文引用,代表了该方向的前沿进展 [19][50]