VLA+在线RL
搜索文档
深扒PI*0.6迭代式强化学习来源:VLA+在线RL实现具身进化
自动驾驶之心· 2025-12-13 10:04
文章核心观点 - 视觉-语言-动作模型与在线强化学习的结合已成为具身智能领域极具前景的研究方向,能够使机器人通过自我探索实现能力进化,超越单纯模仿学习的局限 [3][8] - 星动纪元提出的iRe-VLA方法通过“分而治之,动静结合”的两阶段循环迭代流程,率先突破了VLA模型应用强化学习的困境,其工作被Physical Intelligence的π*0.6研究所引用,代表了该方向的前沿进展 [3][16][17][22] - iRe-VLA方法在仿真与真实世界实验中均展现出显著优势,包括训练稳定性高、能有效学习新任务并提升泛化能力,同时通过合理的算力分配兼顾了经济性与实用性 [44][46][48][57][63] 一、VLA+RL的重要性与难点 - **重要性**:仅靠模仿学习无法应对未见情况或数据不完美,机器人难以达到鲁棒、持久工作;在线强化学习允许智能体通过试错发现更优解,是实现能力突破的关键 [8] - **应用难点**: - **环境差异**:物理世界任务周期长、奖励稀疏,学习困难 [21] - **模型稳定性**:直接对数十亿参数的VLA模型进行在线强化学习易导致灾难性遗忘或训练崩溃 [21] - **算力负担**:对大规模模型进行全量梯度更新超出本地机器人控制器的算力极限 [21] 二、行业解决方案与iRe-VLA的创新 - **行业解决方案类型**: - **外挂式干预**:如V-GPS、DSRL,通过外部价值函数或噪声引导冻结的VLA,但模型本身未发生质变 [22] - **暴力美学**:如VLAC,直接用PPO等算法全量微调VLA,易导致模型坍塌且算力要求高 [22] - **探索到内化的循环**:以iRe-VLA为代表,利用监督微化将强化学习探索出的高价值行为内化为模型的原生能力 [15][22] - **iRe-VLA模型架构**:模型由负责理解与决策的VLM主干(大脑)和负责输出控制信号的轻量级Action Head(四肢)组成,并使用LoRA技术提高微调效率 [19][20] - **核心两阶段循环流程**: - **第一阶段(在线强化学习-探索)**:冻结VLM主干参数,仅训练轻量级的Action Head和Critic Head,使机器人能在本地(如单张4090显卡)稳定探索并发现成功轨迹 [25][29][31] - **第二阶段(监督学习-内化)**:解冻VLM主干,对整个模型进行全参数微调,训练数据混合了新的成功轨迹与原始专家数据,此阶段通常在云端服务器进行,以将新技能固化并防止遗忘旧技能 [32][37][39] 三、实验结果与分析 - **训练稳定性**:直接使用PPO微调VLA会导致成功率曲线剧烈震荡甚至性能下降,而iRe-VLA的曲线稳步上升,证明了分阶段冻结参数策略对稳定训练至关重要 [46] - **仿真环境性能**: - 在MetaWorld基准测试中,iRe-VLA在多项任务上成功率显著超越SFT和PPO-Replay方法,例如将Button-Press-new任务成功率从56%提升至100%,在未见的10个任务上成功率从51%提升至80% [48][50] - 在Franka Kitchen环境中,iRe-VLA同样表现优异,例如将Slide-door-open任务成功率从86%提升至99%,将Left-door-open任务成功率从43%提升至83% [50] - **真实世界性能**: - 在抓取未见物体(如茄子、胡萝卜)的任务中,仅靠专家数据微调的模型初始成功率约为35%,经过iRe-VLA在线学习后,抓取成功率提升至80% [54][57] - 模型展现出泛化能力,抓取完全未参与训练的第三类物体时,成功率也从37%提升至61% [57] - **消融实验**:证明第二阶段解冻VLM主干是必要的,否则模型性能提升会遇到瓶颈,解冻能利用大模型的深层特征表示能力来掌握复杂技能并提升泛化性 [56][58] 四、结论与意义 - **方法优势**: - **稳定性**:解决了大模型直接进行强化学习容易训练崩溃的问题 [63] - **经济性**:巧妙分配算力,本地进行轻量级探索,云端负责重量级消化,符合实际部署场景 [63] - **持续学习**:使机器人能在不遗忘旧技能的前提下,通过自我探索不断掌握新物体和新任务的操作技能 [63] - **行业前景**:iRe-VLA与π*0.6等研究揭示了VLA在线强化学习技术的发展前景,未来研究方向包括高效探索、稀疏奖励下的学习以及大规模VLA的稳定可扩展RL算法等 [62]
深扒PI π*0.6迭代式强化学习思路:VLA+在线RL,实现自我进化
具身智能之心· 2025-12-07 11:03
文章核心观点 - 视觉-语言-动作模型与在线强化学习的结合已成为具身智能领域极具前景的研究方向,能够解决仅靠监督微调面临的泛化性与鲁棒性不足的问题 [3][4] - 星动纪元的iRe-VLA方法通过“分阶段冻结参数、动静结合”的两阶段迭代循环,率先突破了VLA模型应用强化学习的困境,并被海外顶尖研究团队Physical Intelligence的π*0.6工作引用 [15][17][23] - iRe-VLA方法在仿真与真实世界实验中均展现出显著优势,包括更高的任务成功率、卓越的训练稳定性、强大的泛化能力以及符合实际部署的经济性 [45][47][49][58][65] 为什么VLA+RL很重要 - 仅依赖模仿人类专家数据的监督微调方法存在局限,当机器人遇到未见情况或数据不完美时会不知所措,难以实现鲁棒、持久的工作 [6][9] - 在线强化学习允许智能体通过试错发现更优解,有望超越演示数据专家的水平,而离线强化学习则受限于演示数据的质量 [9] 强化学习应用在VLA的三大难点 - **环境差异**:物理世界任务周期长、奖励稀疏,学习困难,不同于在离线数据集上训练的聊天机器人 [22] - **模型坍塌与不稳定性**:直接对数十亿参数的VLA模型进行在线强化学习,极易出现灾难性遗忘或训练崩溃 [22] - **算力负担**:在本地机器人控制器上对大规模模型进行全量梯度更新,硬件要求通常超出极限 [22] 行业解决VLA强化学习困境的三种路径 - **外挂式干预**:训练额外价值函数或小型RL策略来引导冻结的VLA生成动作,VLA本身未发生质变 [23] - **暴力美学**:直接使用PPO等算法全量微调VLA,易导致模型坍塌且算力要求高 [23] - **从探索到内化的循环**:以iRe-VLA为代表,利用监督微调将RL探索出的高价值行为内化为模型的原生能力,是更可行的方案 [16][23] 星动纪元iRe-VLA方法详解 - **模型架构**:VLA模型由负责理解的预训练VLM主干(大脑)和负责输出控制信号的轻量级动作头(四肢)组成,并使用LoRA技术提高微调效率 [20][21] - **核心流程-第一阶段(在线强化学习)**:冻结VLM主干参数,仅训练动作头和一个评价网络,使机器人能在本地(如单张4090显卡)稳定探索并发现成功轨迹 [26][30][32] - **核心流程-第二阶段(监督学习)**:解冻VLM主干,混合使用新探索的成功轨迹与原始专家数据,对整个模型进行微调,将新技能固化并防止遗忘 [33][40] - **迭代循环**:两个阶段循环往复,实现“小参数探索,全参数内化”的持续学习过程 [38][42] 实验结果与分析 - **训练稳定性**:iRe-VLA训练曲线稳步上升,而直接使用PPO微调VLA则成功率曲线震荡剧烈,甚至性能下降 [47] - **仿真环境性能**:在MetaWorld基准测试中,iRe-VLA在多项任务上成功率显著超越SFT和PPO-Replay方法,例如Button-Press-new任务从SFT的56%提升至100% [49][51] - **真实世界性能**:在抓取未见物体任务中,iRe-VLA将成功率从SFT的约35%提升至80%,并且对完全未参与训练的第三类物体,抓取成功率也从37%提升至61%,展现了强大的泛化能力 [52][55][58] - **消融实验必要性**:实验证明,若第二阶段不解冻VLM主干,模型性能提升将遇到瓶颈,说明利用大模型深层特征表示能力对掌握复杂技能至关重要 [59] 结论与意义 - iRe-VLA方法为解决大模型在机器人控制中落地难的问题提供了切实可行的方案,其优势体现在训练稳定性、算力分配的经济性以及持续学习能力上 [61][65] - 该工作与海外PI的π*0.6研究共同揭示了VLA在线强化学习技术的发展前景,未来研究方向包括高效探索、稀疏奖励下的学习以及大规模VLA的稳定RL算法构建等 [63]