量化感知训练 - 财报，业绩电话会，研报，新闻

量化感知训练

搜索文档

机器之心· 2026-02-03 18:35

技术方案核心 - 成功落地了从训练到推理的完整INT4量化感知训练全流程方案该方案采用“训练端伪量化 + 推理端真实量化”的组合实现了与BF16全精度训练相媲美的稳定性与训推一致性 [2][3] - 通过INT4极致压缩将1TB级别的超大模型采样任务容纳于单机H200的141GB显存内消除了跨机通信瓶颈显著提高了Rollout效率 [2] - 方案在开源生态中打通了全流程为社区提供了兼顾高性能与低成本的可落地参考 [3] 技术方案细节 - 总体流程实现了从训练到推理的完整QAT INT4闭环核心收益包括突破显存瓶颈、实现训推一致以及单机效率倍增 [6] - 在QAT训练阶段训练侧维护BF16主权重前向传播通过伪量化引入量化噪声反向传播则利用STE技术确保梯度能够回传以更新主权重 [8][9] - 在权重转换阶段将训练收敛的BF16权重导出并执行真实量化转换为INT4格式供推理引擎使用 [10] - 在推理阶段由SGLang加载INT4权重并执行高效的W4A16推理生成的经验数据回流用于下一轮RL训练构成迭代闭环 [10] 核心策略选择 - 量化格式参考了Kimi-K2-Thinking 选用了INT4方案主要考虑其在现有硬件上的支持更广泛且有成熟的Marlin Kernel实现 [11] - 在1×32量化Scale粒度下 INT4动态范围充足、精度稳定其性能与生态链路均已高度优化 [11] - 训练方法采用了Fake Quantization配合STE的经典组合通过维护BF16主权重并在前向计算中模拟量化噪声最大程度保证了低精度训练的收敛性与稳定性 [11] 训练侧改造与验证 - 在Megatron-LM中实现了Fake Quantization与STE机制核心是在前向传播中将权重动态映射到INT4精度范围参与计算但在反向传播时让梯度直接穿透量化层 [16][17] - 通过消融实验验证了QAT方案的必要性实验证明训练端的Fake Quantization与推理端的Real Quantization必须协同开启才能有效抑制训推不一致和分布偏移 [18][21] - 在“关闭QAT训练，直接进行INT4 Rollout”的传统PTQ模式下误差随着训练步数呈现震荡上升的趋势 [21] 权重更新与格式适配 - 工程落地时遇到了“格式鸿沟” QAT训练产出标准格式权重而SGLang推理引擎的Marlin Kernel要求权重必须经过特定的打包与重排处理 [25] - 设计了一套逆向的`restore_weights_before_loading`保护机制确保模型能在标准权重格式与Marlin权重格式之间平滑切换 [27] - 实现了动态权重管理机制在模型权重加载结束后自动触发流程将标准权重即时转换为高度优化的Marlin权重格式 [28] 推理阶段优化 - SGLang在推理阶段复用了优化成熟的W4A16量化方案使用紧凑的INT4格式将两个4-bit权重打包进一个字节相比BF16节省了75%的内存 [32] - 引入了动态的`moe_align_block_size` 根据当前Token数量和Expert分布自动选择block_size 提升显存带宽利用率 [35] - 将gating部分融合成一个高性能的kernel 避免了反复启动kernel和读写中间结果 [35] 训练与评估效果 - 在Qwen3-235B-A22B与Kimi-K2-Thinking模型上的训练实验表明 “BF16训 - INT4推”配置下的Raw-Reward能保持稳健增长且增长趋势与“BF16训 - BF16推”及“BF16训 - FP8推”基本一致 [38][41] - 在aime-2024基准测试集上的评估显示 “BF16训 - INT4推”方案的评估分数呈现稳健上升态势其性能提升的斜率与最终峰值均与全精度及FP8方案保持了较高的重合度 [42][46] - 在Qwen3-30B与Qwen3-235B模型上的验证显示 INT4 QAT策略下的训推差异与BF16基准呈现出惊人的重合度且显著低于FP8模式 [51] 性能表现分析 - 在Qwen3-235B的Rollout性能对比中 INT4与FP8均较BF16基线实现了显著加速但由于NVIDIA H系列GPU没有原生的INT4 Tensor Core INT4在单步推理耗时上仅表现出微弱优势与FP8基本处于同一性能梯队 [54] - 对于Kimi-K2-Thinking模型在双节点场景下INT4与FP8性能相似整体受限于跨节点通信带宽但在单节点场景下 INT4通过将模型体积减半成功将1TB级模型加载至单机显存消除了跨机通信开销大幅缩减了Rollout耗时 [56][61] - INT4 QAT方案在当前硬件环境下的核心收益在于通过压缩显存解锁了高效的单机部署Rollout方案 [56] 未来工作方向 - 计划解决训练侧因引入QAT Fake Quantization计算带来的较大额外性能开销问题旨在实现全链路的加速 [62] - 随着NVIDIA Blackwell架构的普及将积极探索FP4精度在RL训练与推理中的应用可行性 [62]

杨植麟带 Kimi 团队深夜回应：关于 K2 Thinking 爆火后的一切争议

AI前线· 2025-11-11 14:42

文章核心观点 - 月之暗面公司发布并开源了Kimi K2 Thinking模型，该模型被定位为“模型即Agent”，在多项关键基准测试中表现优异，甚至超越了GPT-5、Claude 4.5等顶级闭源模型[2][10] - 该模型的核心创新在于其“原生智能体”设计，通过KDA注意力机制、原生INT4量化等系统性工程优化，实现了在推理、编码、搜索和写作等任务上的能力跃迁，标志着开源模型首次具备正面对抗闭源巨头的实力[27][28][30][41] 模型性能与基准测试 - 在HLE基准测试中，Kimi K2 Thinking得分44.9，高于GPT-5的41.7和Claude 4.5的32[12] - 在BrowseComp测试中，Kimi K2 Thinking得分60.2，显著高于GPT-5的54.9和Claude 4.5的24.1[12] - 在AIME25数学推理测试中，Kimi K2 Thinking达到99.1%，与GPT-5的99.6%和Claude 4.5的100%几乎持平[12] - 模型支持256k上下文窗口，输入定价为每百万tokens 0.60美元，输出定价为每百万tokens 2.50美元，具备成本优势[12] - 模型可稳定完成200-300次连续工具调用，远超竞争对手的数十次水平[12][29] 技术创新与架构 - 模型引入了关键的KDA注意力机制，采用“增量更新+门控”方式，解决了MoE模型长上下文一致性差和KV缓存大的问题，相关设计思想将延续到下一代K3模型[15][38] - 通过采用原生INT4量化感知训练，模型在几乎不损失精度的前提下，推理速度提升约两倍，显存占用显著下降[35][36] - KDA机制通过增量式计算将KV缓存与显存开销减少约75%，结合MoE架构，共同保障了模型在长推理任务中的稳定表现[38][39] 团队回应与未来规划 - 公司联合创始人杨植麟确认团队正在开发视觉语言模型[18] - 对于网传的460万美元训练成本，公司澄清并非官方数据，强调训练成本难以量化[20] - 团队承认模型在响应速度上相比GPT-5有5-10倍差距，但解释这是为追求思维深度所做的权衡，并正在积极提升token效率[20][21] - 团队认可用户关于模型输出存在“slop问题”的反馈，表示已在减少语言啰嗦重复方面取得进展，并计划在未来版本中提升情绪表达的真实性和开放性[23][25] 应用能力与市场定位 - 模型在SWE-bench Verified编码基准测试中达到71.3%，展现出“智能体级”开发能力，能够完成从需求理解到调试验证的完整闭环[32] - 在智能搜索任务中，模型具备“边搜索边推理”的能力，能够通过多轮“思考-工具调用”循环处理复杂问题[34] - 模型在创意写作和学术研究场景中表现出色，能将零散灵感组织成结构清晰的长篇文本，并保证逻辑一致性[35] - 此次发布被视为公司在行业空窗期的一次“翻身仗”，为开源阵营提供了对抗闭源巨头的底气[27]