文章核心观点 - 小语言模型(SLM)参数虽少但实际部署延迟未必同步下降,关键在于模型设计需以真实GPU延迟为第一原则而非单纯缩小参数[2] - 英伟达研究院通过重构小模型设计原则,构建的Nemotron-Flash模型同时实现了SOTA准确率、低延迟和高吞吐[2] - 小模型的未来发展方向是“更快、更稳、更强”,需围绕延迟优化深宽比、明确算子分工并保持训练稳定性[27] 小模型为何不够快 - 深宽比存在矛盾:模型越深能力越强但对GPU延迟越敏感,等参数下越深延迟越高,等延迟下越宽速度越快[9][14] - Attention成本是吞吐瓶颈:业界对Mamba2、DeltaNet等高效算子的组合缺乏系统方法,未明确各层应使用何种算子[9] - 训练后期易“提前退场”:权重尺度偏移导致有效梯度下降,模型性能受训练过程限制而非参数量限制[10] Nemotron-Flash的核心方法 - 深宽比优化:通过绘制“准确率–延迟”曲线找到深度(负责能力)与宽度(负责速度)交汇的黄金点,使模型既不深得拖速度也不宽得能力不足[14] - 混合算子结构:系统研究各类算子的准确率-延迟权衡,使用遗传算法确定Attention、Mamba2、DeltaNet和FFN在不同层的最优分工与协作模式[16][18] - Weight Normalization技术:在训练每个迭代后对线性层权重施加显式归一化,去除径向分量避免梯度被“巨权重”吃掉,解决训练后期停滞问题[17][20] Nemotron-Flash Model Family性能表现 - Nemotron-Flash-1B相比Qwen3-0.6B准确率提升5.5%,端侧推理延迟快1.9倍,最大吞吐高出45.6倍[24] - Nemotron-Flash-3B相比Qwen2.5-3B与Qwen3-1.7B准确率提升2%至5.5%,端侧推理延迟快1.3至1.7倍,最大吞吐提升6.4至18.7倍[24] - 模型已集成进TensorRT-LLM,单H100 GPU吞吐可达41K tokens/second,具备高并发在线服务、端侧边缘设备及成本敏感企业部署能力[2][25]
NeurIPS 2025 | 英伟达发布Nemotron-Flash:以GPU延迟为核心重塑小模型架构