致敬Kimi K2:基于slime的全流程INT4量化感知RL训练
机器之心·2026-02-03 18:35
受 Kimi K2 团队启发,SGLang RL 团队成功落地了 INT4 量化感知训练(QAT) 流程方案。通过 "训练端伪量化 + 推理端真实量化(W4A16)" 的方案 组合,我们实现了媲美 BF16 全精度训练的稳定性与训推一致性,同时 INT4 极致压缩也将 1TB 级超大模型的采样任务容纳于单机 H200 (141G) 显存 内,消除了跨机通信瓶颈,显著提高了 Rollout 效率,为社区提供了兼顾高性能与低成本的开源参考。 近期,SGLang RL 团队在强化学习的训练稳定性,训练效率与适用场景方面取得了重要进展,具体包括: 在此基础上,我们更进一步,在 slime 框架上成功复现并落地了 INT4 量化感知训练(QAT) 全流程方案。该方案深受 Kimi 团队 K2-Thinking 技术报告 中关于 W4A16 QAT (Quantization-Aware Training) 实践的启发。为了致敬先行者并回馈社区,本文将详细剖析我们在开源生态中打通全流程的技术细 节,旨在为社区提供一份兼顾稳定性与性能的可落地参考。 核心收益概览: 本项目由 SGLang RL 团队、 InfiXAI 团队 ...