Z Tech ｜ LMSYS 团队发布大规模 MoE 强化学习框架 Miles，不积跬步无以至千里

文章核心观点 - LMSYS团队正式推出Miles，这是一个专为企业级大规模MoE训练及生产环境工作负载设计的强化学习框架[1] - Miles从轻量级框架slime分叉而来，在继承其轻量级与高可定制性基础上，针对新一代硬件（如GB300）与大规模MoE进行了深度优化[1] - 该框架引入了Infrastructure-level的True On-Policy、投机训练以及更极致的显存管理机制，旨在为追求高可靠性与大规模部署的团队提供流畅且可控的RL训练体验[1] 从slime出发的技术传承 - Miles完整继承了slime框架的轻量与模块化设计原则，已成为众多模型科学家探索算法的首选工具[3] - 采用True On-Policy策略，结合Flash Attention 3和DeepGEMM，实现了训练与推理的严格一致性[3] - 引入MTP Online Training的投机采样，在训练过程中对Draft Model进行在线SFT，解决了分布偏移问题[3] - 实施极致的显存优化，包括NCCL显存余量控制、部分Offloading及Host峰值内存节省，大幅减少大规模MoE训练中的OOM风险[3] 生产级核心技术突破 - 通过kernel层面优化实现True On-Policy，训练与推理之间的mismatch被精确地降至零[5] - 利用Flash Attention 3、DeepGEMM以及Batch invariant kernels，结合torch compile技术，确保结果的位级一致性[5] - 对SGLang和Megatron的全栈优化提供原生支持，紧跟推理与训练框架的快速迭代[6] - 算法、数据、采样与评估四大组件完全解耦，研究人员仅需极少的代码修改即可插入新的Agent类型或奖励函数[6] 大规模MoE显存优化 - 创新性地在RL过程中对Draft Model进行在线SFT，相比冻结MTP基线实现了25%以上的Rollout加速[9] - 引入传播机制以规避良性OOM导致的错误，实现显存余量机制以修复NCCL导致的OOM[10] - 修复FSDP中的额外显存占用问题，支持基于Move的部分Offloading以及Host端峰值内存节省策略[10] - 支持带Sequence Packing和Context Parallel的MTP，处理Loss Mask的边缘情况，实现LM Head/Embedding的梯度隔离[11] 未来路线图与社区愿景 - 未来开发路线图包括增强FSDP后端以提升大规模分布式训练的稳定性[14] - 计划允许Rollout子系统脱离框架独立部署，适应更灵活的集群调度[14] - 将新增更多监控指标、Post-hoc分析器及增强型Profiler等调试工具集[14] - 扩展对Multi-modal模型的支持，兼容SGLang Spec v2以获得更高性能，推进EAGLE3等更先进的投机训练技术[18]