统一高效VLA+RL训练平台RLinf-VLA！

核心观点 - RLinf-VLA是清华大学推出的首个面向具身智能的大规模强化学习框架，提供了一个统一、高效的平台用于视觉语言动作模型与强化学习的研究 [2] - 该框架的核心特点是“快”、“多”、“好”，系统级优化使吞吐量比基线平台提升2.27倍，支持大规模多任务训练，单个模型在130个任务中成功率高达98.11% [2] - 框架旨在解决当前VLA+RL研究中存在的算法设计分析不全面、基础设施上手难度高、算力昂贵等开发困境 [3] 系统设计 - 框架具有“统一”特性，支持LIBERO和ManiSkill两类典型仿真器，支持OpenVLA和OpenVLA-OFT两种主流模型，并支持PPO和GRPO两种强化学习算法 [5] - 框架具有“高效”特性，系统层面通过YAML文件可灵活切换3种分配模式，吞吐量提升高达2.27倍，算法层面引入了轻量化critic、轨迹长度归一化等优化设计 [5] - 针对不同仿真器的资源需求特点，框架提供了共享式、分离式、混合式三类GPU调度模式，并在混合式中支持细粒度流水设计，以优化资源调度减少GPU空闲 [6][7] - 在ManiSkill仿真器中，OpenVLA模型采用混合式细粒度流水调度模式（k=2）展现了最佳吞吐，吞吐量加速达1.61倍至1.88倍 [7][43] - 在LIBERO仿真器中，OpenVLA-OFT模型的最佳调度模式是共享式，其训练速度比基线快1.34倍至2.27倍 [44] 算法设计 - 框架定义了VLA模型输出的三个粒度：Token-level、Action-level和Chunk-level，并支持两种优势函数计算粒度和三种对数概率计算粒度 [12][14] - 在PPO算法中，基于动作级（action-level）的价值估计优于基于块级（chunk-level）的估计，且部分重置（partial resets）可显著提升采样效率 [9][17] - 在GRPO算法中，轨迹长度归一化与动作掩码是稳定训练的关键，框架还设计了过滤机制，可加速策略收敛并提升模型性能 [9][25][29] - 对于PPO算法，框架采用了轻量化的Critic模型设计，与Actor策略共享大部分参数以减少GPU资源占用 [21] 性能表现 - 在ManiSkill的25个pick&place任务中，经过训练的模型成功率相较于基础模型提升幅度在45%至70%，其中PPO算法表现更稳定，OpenVLA-OFT模型达到97.66%的成功率 [31][35] - 在LIBERO所有的130个任务中，采用GRPO算法训练的单个OpenVLA-OFT模型成功率高达98.11%，在部分任务组中成功率超过99% [40] - 在训练数据分布外的泛化能力测试中，OpenVLA模型也表现出色，成功率优于对比基线 [34][35] - 真机实验表明，在Franka机械臂上部署的OpenVLA模型展现出零样本泛化能力，其任务成功率显著优于基于SFT训练的策略 [45][46]