FlashRL - 财报，业绩电话会，研报，新闻 - Reportify

FlashRL

搜索文档

让强化学习快如闪电：FlashRL一条命令实现极速Rollout，已全部开源

机器之心· 2025-08-12 17:51

核心观点 - 清华AIR与字节联合SIA Lab发布的DAPO系统实现了大规模LLM强化学习的开源SOTA，使Qwen2.5-32B模型在AIME 2024基准上获得50分 [1] - 刘力源、姚峰团队发现DAPO-32B中rollout生成占70%训练时间，通过8bit量化和TIS技术显著加速训练 [3] - FlashRL是首个开源且可用的强化学习方案，在推理阶段应用INT8/FP8量化且性能与BF16持平 [4][15] - TIS技术解决了量化rollout与训练不匹配问题，使性能达到甚至超过BF16 rollout水平 [16] - FlashRL在32B模型上实现1.75倍加速，在内存受限场景下加速比可达3-5倍 [29][34] 技术突破 - 量化技术应用：在rollout阶段采用8bit量化技术，通过TIS保持下游性能 [3][4] - 性能表现：INT8量化使32B模型吞吐量提升1.75倍，FP8量化性能与BF16相当 [23][29] - 内存优化：在TP2-A6000配置下生成速度提升超3倍，TP1-A100配置下超5倍 [34] - 兼容性：支持INT8/FP8量化，兼容H100和A100 GPU [42] 实验结果 - 模型表现：Qwen2.5-32B在AIME基准上获得50分 [1] - 加速效果：7B模型加速比不足1.2倍，32B模型达1.75倍 [29] - 性能对比：INT8 rollout与BF16 rollout在AIME基准准确率相当 [36] - 训练效率：INT8 rollout单位小时内完成的更新步数显著高于BF16 [39] 应用部署 - 安装使用：通过pip install flash-llm-rl即可安装，无需修改代码 [41] - 技术细节：完整技术方案发布于团队博客 [8][17] - 开源资源：论文和代码已在GitHub开源 [7][8]

Artificial Intelligence

Artificial Intelligence