英伟达发布开源模型Nemotron 3 - 公司发布名为Nemotron 3的“最高效的开放模型家族”,其特点包括混合Mamba-Transformer MoE架构以及采用NVFP4低精度训练 [1] 开源策略 - 公司不仅开放模型权重,还将公开超过10万亿token的训练数据、预训练与后训练软件以及训练配方 [3] 架构创新:混合Mamba-Transformer - 模型架构旨在最大化推理效率,使用大量Mamba-2层替代传统Transformer的自注意力层,以解决KV Cache随序列长度线性增长带来的计算开销问题 [7][8][9] - 以Nano型号为例,模型主要由交替堆叠的Mamba-2层和MoE层构成,仅保留少数自注意力层 [10] - 在8k输入、16k输出的典型推理场景下,Nemotron 3 Nano 30B-A3B的吞吐量是Qwen3-30B-A3B的3.3倍,且序列越长优势越明显 [12] - 在长上下文任务上,Nemotron 3 Nano基座模型在100万token输入长度的RULER基准测试中得分为68.2分,远高于同样条件下训练的Nemotron 2 Nano 12B的23.43分,显示其长度外推鲁棒性更好 [14] 架构创新:LatentMoE - 针对Super和Ultra大模型,公司提出LatentMoE架构,在潜在空间中进行专家计算以解决MoE部署瓶颈 [15] - LatentMoE将token从原始隐藏维度d投影到更小的潜在维度ℓ(通常为d的四分之一),在此低维空间完成专家路由和计算,再投影回原始维度,从而降低权重加载和通信开销 [16][17] - 标准MoE使用128个专家、激活6个,而LatentMoE使用512个专家、激活22个,两者总参数量和激活参数量相近(约8B激活、73B总参),但LatentMoE在所有下游任务上表现更优:MMLU-Pro从48.30%提升至52.87%,代码任务从51.95%提升至55.14%,数学任务从78.32%提升至80.19% [18][20][21] 低精度训练技术 - Super和Ultra模型采用NVFP4(4位浮点)格式进行训练,在GB300上其峰值吞吐量是FP8的3倍 [22] - 团队已用NVFP4格式稳定训练高达25万亿token,与BF16训练相比,Nano模型的损失差距控制在1%以内,8B激活参数的更大模型差距缩小到0.6%以内 [22] - 并非所有层都量化至NVFP4,Mamba输出投影层保留在MXFP8精度,QKV投影和注意力投影保留在BF16,网络最后15%的层也保持高精度以确保稳定性 [23] 后训练方法 - 模型后训练采用多环境强化学习,同步训练数学推理、竞赛编程、指令遵循等多种任务,该方法更稳定且能避免能力退化问题 [24][25][26] - 在此方法下,AIME25数学分数从80提升到90,LiveCodeBench从65提升到72,τ²-Bench工具使用从40提升到50左右 [27] - 在MMLU、GSM8K、HumanEval等下游任务上,NVFP4训练的模型与BF16版本的准确率曲线几乎重合 [28] - 高效的推理吞吐量对生成海量RL rollout样本至关重要,团队采用异步RL架构和多token预测来加速,并使用GRPO配合masked importance sampling算法 [30][31] - 整个后训练软件栈以Apache 2.0协议开源,包括NeMo-RL和NeMo-Gym [32] 推理功能 - 模型支持推理时的思维预算控制,用户可指定思维链的最大token数,当达到预算时,模型可基于部分思维链生成最终回答 [33][34] - 论文提供了准确率与平均生成token数之间的权衡曲线,为部署中的效率-精度平衡提供细粒度控制 [35]
英伟达成美国大模型开源标杆:Nemotron 3连训练配方都公开,10万亿token数据全放出