行业背景与趋势 - 人工智能正经历从“感知”到“行动”的跨越,融合大模型的具身智能被认为是人工智能的下一发展阶段,成为学术界与工业界共同关注的话题 [2] - 在大模型领域,随着o1/R1系列推理模型的发布,模型训练的重心逐渐从数据驱动的预训练/后训练转向奖励驱动的强化学习,OpenAI预测强化学习所需的算力甚至将超过预训练 [2] - 具身智能领域不仅继承了推理大模型和数字智能体的难点,还引入了独特的“渲训推一体化”特征,即需要高效并行物理仿真和3D图形渲染,对框架的灵活性、高效性和易用性提出挑战 [4] RLinf框架核心创新 - 该框架是面向具身智能的灵活、可扩展的大规模强化学习框架,其“inf”既代表“infrastructure”,也代表“infinite” scaling,体现了极度灵活的系统设计思想 [5][7] - 框架系统抽象为6大层级:用户层、任务层、执行层、调度层、通信层和硬件层,相比其他框架的分离式执行模式,其提出的混合式执行模式在具身智能训练场景下实现了超120%的系统提速,VLA模型涨幅40%-60% [7] - 框架采用创新的宏工作流到微执行流的映射机制,实现从组件级进行调度,兼具过程式编程的灵活性和声明式编程的编译优化能力,使用户能够以高度可适配的方式编排组件 [14][15] 技术设计与性能优势 - 针对具身智能大小脑不同训练需求,框架采用低侵入式多后端集成方案,集成Megatron+SGLang/vLLM和FSDP+Hugging Face两套后端,分别服务于大规模集群训练和快速小规模验证 [16][19] - 框架设计了面向强化学习的自适应通信库,包含自适应CUDAIPC/NCCL通信、负载均衡传输队列、多通道并发通信机制、快速通信重配置等四项优化技术 [22][28][29] - 自动化调度模块可针对用户的训练流和计算资源选择最优执行模式,并集成“秒级在线扩缩容”能力,70B模型只需1秒即可完成5D并行动态扩缩,而传统方案需十几秒甚至更久 [24][25] 应用性能与成果 - 在具身智能应用上,框架支持Vision-Language-Action Models+RL,在Maniskill3任务测试中,相比其他框架的分离式执行模式,系统效率显著提速120%以上 [27][33] - 使用框架训练后,OpenVLA及OpenVLA-OFT在Maniskill3自建25个任务中的成功率可从SFT后的30%-50%提升至80%-90%,涨幅40%-50%以上;在LIBERO平台的4个场景中,平均成功率达到97.3%,相比SFT模型涨幅62.4% [30][31][35] - 框架在数学推理大模型训练上也展现通用性,所训练的1.5B和7B模型在AIME24、AIME25和GPQA-diamond数据集上均取得SOTA性能,例如RLinf-math-1.5B在三个测试集上的平均Pass@1达到40.84% [7][36][38] 生态与未来发展 - 框架提供了全面且系统化的使用文档,采用公司级代码开发流程,确保文档内容覆盖从入门到深度开发的各层次需求,并集成AI问答机器人以提升开发体验 [40] - 开发团队具有交叉研究背景,包含从系统到算法到应用的技术全栈,能够实现应用需求驱动算法设计,算法指导系统设计,高效系统加速算法迭代的新型科研形态 [41]
首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源
机器之心·2025-09-01 10:49