Workflow
LIBERO
icon
搜索文档
RLINF-VLA:一种用于 VLA+RL 训练的统一高效框架
具身智能之心· 2025-10-22 14:02
文章核心观点 - 研究团队提出了一个名为RLinf-VLA的统一高效框架,旨在解决视觉-语言-动作模型在强化学习训练中存在的框架零散、效率低下和缺乏统一比较平台的问题 [2] - 该框架通过高度灵活的资源分配设计和统一接口,可无缝支持多种VLA架构、RL算法与模拟器,显著提升了训练效率 [2] - 在仿真实验中,单一统一模型在130个LIBERO任务和25个ManiSkill任务上取得了极高的成功率,分别达到98.11%和97.66% [2][5] - 真实世界部署初步验证表明,经过RL训练的策略比监督微调策略展现出更强的泛化能力 [2][5] 框架设计 GPU分配策略 - 框架针对CPU并行与GPU并行模拟器资源利用模式的差异,支持三种GPU分配模式:共置模式、分离模式和混合模式,用户可通过配置文件轻松切换 [6][8] - 针对GPU并行模拟器,特别提出了“混合分配 + 细粒度流水线”策略,通过将单个GPU上的模拟器拆分为多个子模拟器来减少闲置时间 [8][10] - 混合细粒度流水线分配模式结合了共置和分离模式的优势,训练速度相比基准分离模式提升1.61至1.88倍 [2][35] 模型兼容性 - 框架支持LoRA这一参数高效微调方法,启用后可减少可训练参数、降低内存消耗并加速训练 [12] - 在模型类型上,目前支持OpenVLA(约70亿参数)和其扩展OpenVLA-OFT,后者优化了微调效率、推理速度与部署能力 [12] 多模拟器支持 - 框架选择ManiSkill(擅长基于物理的操作任务)与LIBERO(侧重指令驱动任务)作为主要模拟器,二者功能互补 [13] - 通过统一接口支持不同模拟器的向量化环境,并支持PPO和GRPO等多种强化学习算法 [13] 算法设计 优势函数与对数概率 - 框架支持“动作块”概念,即策略在每个时间步预测一段短期未来动作序列,并为此定义了块级和动作级两种优势函数计算方式 [14] - 支持动作级、块级与令牌级三种对数概率计算粒度,不同选项会带来不同的优化动态 [15] - 优势函数类型兼容所有粒度不细于其自身的对数概率类型,并通过广播机制处理优势值 [17] PPO设计选择 - 在评价网络设计上,为避免增加计算开销,框架让动作网络与评价网络共享大部分参数,仅在VLA模型上附加轻量级价值头 [19] - 实验表明,OpenVLA-OFT模型使用动作级价值估计通常性能更优 [19] - 部分重置模式在“一次成功”优化目标下能提升样本效率,成功率始终高于固定episode长度模式 [19][41] GRPO设计选择 - 框架为GRPO实现了轨迹长度归一化损失,以均衡成功与失败轨迹在优化中的贡献,实验显示该设置能显著提升性能 [20][43] - 成功率过滤机制会丢弃所有轨迹回报相同的组,可提升GRPO训练稳定性,但其有效性具有任务依赖性 [20][46] 实验结果 高性能表现 - 在ManiSkill的25个任务上,无论是OpenVLA还是OpenVLA-OFT模型,强化学习均带来显著性能提升,成功率相比基准提升45%至70% [21][22] - PPO算法在ManiSkill任务中始终优于GRPO,且训练稳定性更高 [22] - 在LIBERO的130个任务上训练单一模型,整体平均成功率从约65.43%提升至98.11%,性能提升约32.68个百分点 [26][28] 高效率表现 - 在GPU并行模拟器评估中,RLinf-VLA的混合模式(pipe=2)在8 GPU配置下吞吐量比基准分离模式提升1.88倍 [35] - 扩展到16与32 GPU时,混合模式通过流水线重叠计算与通信,仍比分离模式提升1.61至1.69倍 [35] - 对于CPU并行模拟器,RLinf-VLA的共置模式相比基准框架SimpleVLA-RL实现1.34至2.27倍的吞吐量提升 [35][37] 消融实验与超参数 - 动作级价值估计相比块级估计能实现更高的成功率与更低的价值损失,学习过程更有效 [39] - 有效动作掩码与轨迹长度归一化结合可带来性能提升,但其效果具有任务依赖性 [44] - 更大的轨迹批次大小有利于性能提升,且不同LoRA配置可能需要单独进行超参数调优 [48][50] 真实世界部署 - 在真实世界Franka机械臂上的部署实验对比了RL训练模型与SFT模型,任务涉及6个未见过物体的拾取放置 [51] - RL训练模型在30次尝试中成功8次,而SFT策略全部失败,显示出RL训练策略更强的零样本泛化能力 [5][51] - 除基础校准外未采用额外仿真-真实迁移技术,初步验证了基于仿真的强化学习在泛化能力上的优势 [51]
统一高效VLA+RL训练平台RLinf-VLA!
具身智能之心· 2025-10-13 08:02
核心观点 - RLinf-VLA是清华大学推出的首个面向具身智能的大规模强化学习框架,提供了一个统一、高效的平台用于视觉语言动作模型与强化学习的研究 [2] - 该框架的核心特点是“快”、“多”、“好”,系统级优化使吞吐量比基线平台提升2.27倍,支持大规模多任务训练,单个模型在130个任务中成功率高达98.11% [2] - 框架旨在解决当前VLA+RL研究中存在的算法设计分析不全面、基础设施上手难度高、算力昂贵等开发困境 [3] 系统设计 - 框架具有“统一”特性,支持LIBERO和ManiSkill两类典型仿真器,支持OpenVLA和OpenVLA-OFT两种主流模型,并支持PPO和GRPO两种强化学习算法 [5] - 框架具有“高效”特性,系统层面通过YAML文件可灵活切换3种分配模式,吞吐量提升高达2.27倍,算法层面引入了轻量化critic、轨迹长度归一化等优化设计 [5] - 针对不同仿真器的资源需求特点,框架提供了共享式、分离式、混合式三类GPU调度模式,并在混合式中支持细粒度流水设计,以优化资源调度减少GPU空闲 [6][7] - 在ManiSkill仿真器中,OpenVLA模型采用混合式细粒度流水调度模式(k=2)展现了最佳吞吐,吞吐量加速达1.61倍至1.88倍 [7][43] - 在LIBERO仿真器中,OpenVLA-OFT模型的最佳调度模式是共享式,其训练速度比基线快1.34倍至2.27倍 [44] 算法设计 - 框架定义了VLA模型输出的三个粒度:Token-level、Action-level和Chunk-level,并支持两种优势函数计算粒度和三种对数概率计算粒度 [12][14] - 在PPO算法中,基于动作级(action-level)的价值估计优于基于块级(chunk-level)的估计,且部分重置(partial resets)可显著提升采样效率 [9][17] - 在GRPO算法中,轨迹长度归一化与动作掩码是稳定训练的关键,框架还设计了过滤机制,可加速策略收敛并提升模型性能 [9][25][29] - 对于PPO算法,框架采用了轻量化的Critic模型设计,与Actor策略共享大部分参数以减少GPU资源占用 [21] 性能表现 - 在ManiSkill的25个pick&place任务中,经过训练的模型成功率相较于基础模型提升幅度在45%至70%,其中PPO算法表现更稳定,OpenVLA-OFT模型达到97.66%的成功率 [31][35] - 在LIBERO所有的130个任务中,采用GRPO算法训练的单个OpenVLA-OFT模型成功率高达98.11%,在部分任务组中成功率超过99% [40] - 在训练数据分布外的泛化能力测试中,OpenVLA模型也表现出色,成功率优于对比基线 [34][35] - 真机实验表明,在Franka机械臂上部署的OpenVLA模型展现出零样本泛化能力,其任务成功率显著优于基于SFT训练的策略 [45][46]
VLA-Adapter:以0.5B参数实现机器人智能新高度,还无需预训练
具身智能之心· 2025-09-17 11:14
>> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 点击下方 卡片 ,关注" 具身智能之心 "公众号 | | OpenVLA-OFT (soTA) | | VLA-Adapter (Ours) | | --- | --- | --- | --- | | Backbone ↓ | 7B | 0.5в | 1/14× | | Fine-tuning Cost ↓ | 304GPU·h | 8GPU.h | 1/38× | | Training VRAM (8 batch)↓ | 62GB | 24.7GB | 0.4× | | Throughput (8-dim chunk) ↑ | 71.4Hz | 219.2Hz | 3× | | Performance (LIBERO) ↑ | 97.1% | 97.3% | Maintain | | VLM # / 3 | Bridge | Policy | Frozen | | | | | ు Trainable | | / IRGB L Instuction | A ...
从坐标混乱到时空对齐!诺亚和复旦联合提出4D-VLA,提升机器人预训练效率和稳健性
具身智能之心· 2025-07-06 19:54
核心观点 - 4D-VLA通过引入3D空间坐标和历史帧信息,显著提升了视觉-语言-动作模型在复杂场景中的性能,解决了传统单帧RGB输入导致的坐标系混乱和状态模糊问题[4][8][10] - 实验证明4D-VLA在LIBERO评测中平均成功率高达88.6%,比现有最佳方法提升10.5个百分点[33] - 在真实机器人测试中,完整版4D-VLA模型平均成功率85.63%,比基线OpenVLA提升57.93个百分点[44] 现有范式的局限 - 主流方法如OpenVLA仅使用单帧RGB图像+文本指令,导致目标分布呈现高方差/非平滑特征[7] - 单帧输入导致坐标系混乱问题,在DROID数据集中约67%样本存在此问题[8] - 状态混乱问题:视觉相似观测可能对应完全不同的动作,导致局部不连续[8] 坐标系混乱影响 - 受控实验显示,无3D信息的纯RGB模型在Level 3混乱下成功率仅剩8%,而加入3D坐标编码的模型仍保持30%[17] - 坐标系漂移导致动作标签冲突,严重拖慢模型学习速度[18] 4D-VLA方法创新 - 通过深度图+相机外参将像素反投影到世界坐标,显式嵌入3D位置编码[10][21] - 采用滑动窗口和Memory Bank Sampling动态选取历史帧[25] - 引入可学习相对时间token处理非均匀采样间隔[27] 实验设置 - 预训练使用DROID数据集,包含76,000条轨迹,350小时交互,564个场景[29] - 下游评测使用LIBERO仿真套件,包含130个子任务[29] - 训练使用8张NVIDIA A6000 GPU,耗时约96小时[31] 性能表现 - 在MV-Bench跨视角评测中,4D-VLA成功率73.8%,比OpenVLA提升23.3个百分点[39] - 真实机器人测试显示,加入3D坐标编码使成功率从47%提升至63.67%[44] - 多视角实验中,4D-VLA在极端±45°视角偏移下仍保持40-55%成功率[58] 技术优势 - 3D坐标对齐使模型在不同摄像机坐标中共享统一世界坐标系[40] - 历史帧记忆帮助维持多步推理链,解决长程任务中的失败问题[48] - 时空提示带来视角不变性,使模型聚焦于物体间真实空间关系[40][41]