对VLA的RL最新进展的梳理~

2025年VLA领域RL算法发展综述核心观点 - VLA领域RL算法在2025年5月迎来技术爆发，传统算法（PPO、GRPO、DPO）被迁移至VLA场景，并涌现大量针对性创新技巧 [1] - 主流技术路线为双阶段训练范式（监督预训练+在线RL微调），结合稠密奖励设计、工程优化等提升性能 [25][26] 算法创新与实验 iRe-VLA - 采用PPO算法，提出双阶段训练：监督学习预训练→冻结VLM backbone进行在线RL→混合数据迭代优化 [2][3] - 实验环境覆盖Meatworld仿真、Franka Kitchen及真实机械臂任务，消融实验显示解冻VLM backbone可提升效果 [5] GRAPE - 引入DPO偏好对齐机制，轨迹级奖励设计包含三部分：成功奖励（1/0）、自我奖励（轨迹生成概率对数）、外部奖励（VLM+GPT-4o生成的动态cost函数） [6][8][9] - 在Simpler-Env和LIBERO环境中超越SFT及传统DPO基线 [10] LOOP/RIPT-VLA - 结合RLOO（留一法优势估计）与PPO，解决稀疏奖励+长序列+多任务不平衡场景的Critic训练难题 [13][14] - 动态拒绝机制跳过无效梯度更新，多任务群体采样缓解数据不平衡 [15] RL4VLA - 将VLA动作生成建模为多模态对话过程，设计Robotic Process Reward Model提供稠密伪奖励 [19][20] - 关键工程优化：GPU负载均衡矢量化环境、分布式训练框架（PyTorch FSDP）、bfloat16精度加速 [25][26] 技术趋势与挑战 - PPO仍是当前VLA-RL最优算法，但需探索新算法适配VLA特性（如LOOP） [17][30] - 稀疏奖励问题通过子任务分解、关键帧伪奖励、课程学习等策略缓解 [22][23][30] - 工程瓶颈包括采样效率低、显存开销大、非自回归结构适配等 [30]