行业技术趋势:VLA与强化学习(RL)的深度融合 - 当前视觉-语言-动作模型在真实世界应用中面临挑战,仅依赖模仿学习的VLA在分布外场景中表现脆弱,缺乏失败恢复、自主探索与闭环纠错能力 [2] - 强化学习被证明能显著提升VLA模型的泛化能力,实验显示其在分布外任务上的性能提升可达42.6% [2] - 2024至2025年间,VLA+RL的研究方向产出大量论文,成为行业活跃领域,技术框架也在逐步完善 [2] 代表性研究方向与工作 - 世界模型与在线方案:基于世界模型的在线系统是活跃方向,例如NORA-1.5模型利用世界模型和基于动作的偏好奖励进行训练 [2][5] - 离线强化学习优化:多个工作专注于通过离线RL对VLA进行后训练,以平衡信号与方差,并提升效率,例如CO-RFT采用分块离线强化学习进行高效微调 [5] - 策略优化与泛化增强:研究通过强化学习放大机器人视觉-语言操作能力,并探索RL为VLA泛化带来的实际效益,有工作对此进行了实证研究 [5][13] 关键工具与框架发展 - RLinf框架:由行业专家推动的Rlinf工具,支持的方法越来越多,为VLA+RL训练提供了一个统一且高效的框架 [2][11] - 多样化训练方法:行业出现了多种微调与后训练方法,包括使用世界模型作为虚拟环境、基于反射的任务适应、以及结合人类在环的双行动者微调等 [8][10][12] 近期(2025年)重要研究成果列举 - 2025年11月:发布了NORA-1.5、pi0.6、WMPO、RobustVLA、World-Env等多篇重要论文,涉及世界模型策略优化、鲁棒性后训练等方向 [5][6][8][9] - 2025年10月:推出了DeepThinkVLA以增强模型推理能力,以及多个基于流匹配策略的强化学习微调工作 [9][10][11] - 2025年9月:研究包括自改进的具身基础模型、VLA-Critic模型用于机器人现实世界强化学习,以及简单的VLA-RL扩展训练 [11][12] - 2025年5月至6月:工作聚焦于强化学习恢复压缩模型、轨迹组策略优化,并实证研究RL对VLA泛化的作用 [13][14] - 2025年1月至3月:研究方向包括通过在线RL改进VLA、大规模RL微调实现卓越的机器人策略,以及VLA的安全对齐 [16][17][18]
今年的VLA+RL的工作正在排队等着录用......
具身智能之心·2025-12-24 08:25