Workflow
首个开源实现100%可复现的稳定RL训练框架来了!2次结果完全重合
量子位·2025-09-27 09:30

核心技术突破 - SGLang团队联合slime团队通过定制注意力算子和采样逻辑,实现了完全确定性推理,解决了LLM推理中的不确定性问题[2][5][6] - 该实现基于Thinking Machines Lab提出的批次不变性算子,核心创新是解决了因动态批处理导致批次大小变化而引起的浮点运算非结合性问题[4][7] - 确定性推理功能与分块预填充、CUDA Graph、Radix Cache等关键性能优化技术完全兼容,在启用确定性模式时仍支持这些功能[5][9] 性能表现 - 使用CUDA Graph可实现2.8倍加速,与Thinking Machines Lab报告的61.5%性能下降相比,SGLang在FlashInfer和FlashAttention 3后端平均仅有34.35%的性能下降[5] - 在256个请求的RL推理工作负载测试中,确定性推理在FlashInfer后端的性能下降为24.4%-46%,FlashAttention 3后端为27.2%-35.7%,Triton后端为44.64%-55.1%[12][13] - 确定性测试显示,在三种不同测试场景下,常规模式会产生2-18个独特输出,而确定性模式在所有后端均稳定输出1个独特结果,实现了完美确定性[10][11] 技术验证与应用 - 基于Qwen3-8B的重复实验显示两次运行曲线完美重合,为需要高精度复现的实验场景提供了可靠保障[1] - 支持按请求设置采样种子,即使在temperature>0的非贪婪采样模式下也能实现确定性推理[9] - 当前主要推荐用于调试和复现性场景,未来目标是将性能差距缩小到20%以内或与正常模式持平[13] 未来发展路径 - 将优化批次不变算子作为性能提升重点,这对提高RL推理速度至关重要[18] - 计划将确定性推理支持从Dense模型扩展到Qwen3-30B-A3B或DeepSeek-V3等混合专家模型[18] - 将增强基数缓存功能使其兼容更广泛的注意力算子,并计划集成FlexAttention等新后端[18]