Workflow
开启RL Scaling新纪元,siiRL开源:完全分布式强化学习框架,支持超千卡规模高效训练
机器之心·2025-07-29 15:44

强化学习扩展性瓶颈与趋势 - 当前顶尖基础模型(DeepSeek-R1、o3-pro、Gemini 2.5-pro、Claude-4)的卓越推理能力依赖大规模强化学习,RL Scaling成为大模型领域"军备竞赛"核心[1] - xAI发布的Grok 4在200,000块GPU集群上运行强化学习,推动后训练规模达到新高度[1] - 解决RL扩展性瓶颈是解锁下一代AI高级推理能力的关键战略[2] siiRL框架创新设计 - 采用多控制器范式和全分布式架构,将数据加载/计算/流转任务均匀分散到工作节点,消除单一控制器瓶颈[3][11] - 核心组件:DAG Planner(逻辑工作流分解)、DAG Worker(GPU绑定执行)、Data Coordinator(数据生命周期管理)[13][14][15] - 支持华为昇腾NPU,实现跨硬件平台兼容[3] 性能优势验证 - 在1024 GPU规模下实现近乎线性扩展,512卡时保持80.5%线性扩展效率[3][21] - PPO/GRPO算法训练中最高实现2.62倍吞吐提升,72B模型训练时基线框架出现OOM而siiRL稳定运行[19] - 数据密集型任务(64k长上下文)中性能优势从1.48倍扩大至2.03倍[26] 技术突破点 - 端到端训练吞吐最高提升7倍(VLM任务)[21][25] - 动态数据缓冲机制自动调整数据分片(数据并行度变化时)[17] - 收敛性验证显示在保持与基线相同精度的前提下大幅减少训练耗时[28] 行业应用前景 - DAG设计为多智能体系统奠定基础,未来将重点拓展MARL算法兼容性和复杂交互机制[29] - 全链路开源框架(代码100%开放)支持国产硬件,目标实现"大模型跑在中国芯"[33] - 产学研团队背景涵盖万卡集群建设者、CUDA开发者、芯片优化专家等[33]