量化感知训练
搜索文档
致敬Kimi K2:基于slime的全流程INT4量化感知RL训练
机器之心· 2026-02-03 18:35
技术方案核心 - 成功落地了从训练到推理的完整INT4量化感知训练全流程方案 该方案采用“训练端伪量化 + 推理端真实量化”的组合 实现了与BF16全精度训练相媲美的稳定性与训推一致性 [2][3] - 通过INT4极致压缩 将1TB级别的超大模型采样任务容纳于单机H200的141GB显存内 消除了跨机通信瓶颈 显著提高了Rollout效率 [2] - 方案在开源生态中打通了全流程 为社区提供了兼顾高性能与低成本的可落地参考 [3] 技术方案细节 - 总体流程实现了从训练到推理的完整QAT INT4闭环 核心收益包括突破显存瓶颈、实现训推一致以及单机效率倍增 [6] - 在QAT训练阶段 训练侧维护BF16主权重 前向传播通过伪量化引入量化噪声 反向传播则利用STE技术确保梯度能够回传以更新主权重 [8][9] - 在权重转换阶段 将训练收敛的BF16权重导出并执行真实量化 转换为INT4格式 供推理引擎使用 [10] - 在推理阶段 由SGLang加载INT4权重并执行高效的W4A16推理 生成的经验数据回流用于下一轮RL训练 构成迭代闭环 [10] 核心策略选择 - 量化格式参考了Kimi-K2-Thinking 选用了INT4方案 主要考虑其在现有硬件上的支持更广泛 且有成熟的Marlin Kernel实现 [11] - 在1×32量化Scale粒度下 INT4动态范围充足、精度稳定 其性能与生态链路均已高度优化 [11] - 训练方法采用了Fake Quantization配合STE的经典组合 通过维护BF16主权重并在前向计算中模拟量化噪声 最大程度保证了低精度训练的收敛性与稳定性 [11] 训练侧改造与验证 - 在Megatron-LM中实现了Fake Quantization与STE机制 核心是在前向传播中将权重动态映射到INT4精度范围参与计算 但在反向传播时让梯度直接穿透量化层 [16][17] - 通过消融实验验证了QAT方案的必要性 实验证明训练端的Fake Quantization与推理端的Real Quantization必须协同开启 才能有效抑制训推不一致和分布偏移 [18][21] - 在“关闭QAT训练,直接进行INT4 Rollout”的传统PTQ模式下 误差随着训练步数呈现震荡上升的趋势 [21] 权重更新与格式适配 - 工程落地时遇到了“格式鸿沟” QAT训练产出标准格式权重 而SGLang推理引擎的Marlin Kernel要求权重必须经过特定的打包与重排处理 [25] - 设计了一套逆向的`restore_weights_before_loading`保护机制 确保模型能在标准权重格式与Marlin权重格式之间平滑切换 [27] - 实现了动态权重管理机制 在模型权重加载结束后自动触发流程 将标准权重即时转换为高度优化的Marlin权重格式 [28] 推理阶段优化 - SGLang在推理阶段复用了优化成熟的W4A16量化方案 使用紧凑的INT4格式 将两个4-bit权重打包进一个字节 相比BF16节省了75%的内存 [32] - 引入了动态的`moe_align_block_size` 根据当前Token数量和Expert分布自动选择block_size 提升显存带宽利用率 [35] - 将gating部分融合成一个高性能的kernel 避免了反复启动kernel和读写中间结果 [35] 训练与评估效果 - 在Qwen3-235B-A22B与Kimi-K2-Thinking模型上的训练实验表明 “BF16训 - INT4推”配置下的Raw-Reward能保持稳健增长 且增长趋势与“BF16训 - BF16推”及“BF16训 - FP8推”基本一致 [38][41] - 在aime-2024基准测试集上的评估显示 “BF16训 - INT4推”方案的评估分数呈现稳健上升态势 其性能提升的斜率与最终峰值 均与全精度及FP8方案保持了较高的重合度 [42][46] - 在Qwen3-30B与Qwen3-235B模型上的验证显示 INT4 QAT策略下的训推差异与BF16基准呈现出惊人的重合度 且显著低于FP8模式 [51] 性能表现分析 - 在Qwen3-235B的Rollout性能对比中 INT4与FP8均较BF16基线实现了显著加速 但由于NVIDIA H系列GPU没有原生的INT4 Tensor Core INT4在单步推理耗时上仅表现出微弱优势 与FP8基本处于同一性能梯队 [54] - 对于Kimi-K2-Thinking模型 在双节点场景下INT4与FP8性能相似 整体受限于跨节点通信带宽 但在单节点场景下 INT4通过将模型体积减半 成功将1TB级模型加载至单机显存 消除了跨机通信开销 大幅缩减了Rollout耗时 [56][61] - INT4 QAT方案在当前硬件环境下的核心收益在于通过压缩显存 解锁了高效的单机部署Rollout方案 [56] 未来工作方向 - 计划解决训练侧因引入QAT Fake Quantization计算带来的较大额外性能开销问题 旨在实现全链路的加速 [62] - 随着NVIDIA Blackwell架构的普及 将积极探索FP4精度在RL训练与推理中的应用可行性 [62]
杨植麟带 Kimi 团队深夜回应:关于 K2 Thinking 爆火后的一切争议
AI前线· 2025-11-11 14:42
文章核心观点 - 月之暗面公司发布并开源了Kimi K2 Thinking模型,该模型被定位为“模型即Agent”,在多项关键基准测试中表现优异,甚至超越了GPT-5、Claude 4.5等顶级闭源模型[2][10] - 该模型的核心创新在于其“原生智能体”设计,通过KDA注意力机制、原生INT4量化等系统性工程优化,实现了在推理、编码、搜索和写作等任务上的能力跃迁,标志着开源模型首次具备正面对抗闭源巨头的实力[27][28][30][41] 模型性能与基准测试 - 在HLE基准测试中,Kimi K2 Thinking得分44.9,高于GPT-5的41.7和Claude 4.5的32[12] - 在BrowseComp测试中,Kimi K2 Thinking得分60.2,显著高于GPT-5的54.9和Claude 4.5的24.1[12] - 在AIME25数学推理测试中,Kimi K2 Thinking达到99.1%,与GPT-5的99.6%和Claude 4.5的100%几乎持平[12] - 模型支持256k上下文窗口,输入定价为每百万tokens 0.60美元,输出定价为每百万tokens 2.50美元,具备成本优势[12] - 模型可稳定完成200-300次连续工具调用,远超竞争对手的数十次水平[12][29] 技术创新与架构 - 模型引入了关键的KDA注意力机制,采用“增量更新+门控”方式,解决了MoE模型长上下文一致性差和KV缓存大的问题,相关设计思想将延续到下一代K3模型[15][38] - 通过采用原生INT4量化感知训练,模型在几乎不损失精度的前提下,推理速度提升约两倍,显存占用显著下降[35][36] - KDA机制通过增量式计算将KV缓存与显存开销减少约75%,结合MoE架构,共同保障了模型在长推理任务中的稳定表现[38][39] 团队回应与未来规划 - 公司联合创始人杨植麟确认团队正在开发视觉语言模型[18] - 对于网传的460万美元训练成本,公司澄清并非官方数据,强调训练成本难以量化[20] - 团队承认模型在响应速度上相比GPT-5有5-10倍差距,但解释这是为追求思维深度所做的权衡,并正在积极提升token效率[20][21] - 团队认可用户关于模型输出存在“slop问题”的反馈,表示已在减少语言啰嗦重复方面取得进展,并计划在未来版本中提升情绪表达的真实性和开放性[23][25] 应用能力与市场定位 - 模型在SWE-bench Verified编码基准测试中达到71.3%,展现出“智能体级”开发能力,能够完成从需求理解到调试验证的完整闭环[32] - 在智能搜索任务中,模型具备“边搜索边推理”的能力,能够通过多轮“思考-工具调用”循环处理复杂问题[34] - 模型在创意写作和学术研究场景中表现出色,能将零散灵感组织成结构清晰的长篇文本,并保证逻辑一致性[35] - 此次发布被视为公司在行业空窗期的一次“翻身仗”,为开源阵营提供了对抗闭源巨头的底气[27]