英伟达成美国大模型开源标杆：Nemotron 3连训练配方都公开，10万亿token数据全放出

英伟达发布开源模型Nemotron 3 - 公司发布名为Nemotron 3的“最高效的开放模型家族”，其特点包括混合Mamba-Transformer MoE架构以及采用NVFP4低精度训练 [1] 开源策略 - 公司不仅开放模型权重，还将公开超过10万亿token的训练数据、预训练与后训练软件以及训练配方 [3] 架构创新：混合Mamba-Transformer - 模型架构旨在最大化推理效率，使用大量Mamba-2层替代传统Transformer的自注意力层，以解决KV Cache随序列长度线性增长带来的计算开销问题 [7][8][9] - 以Nano型号为例，模型主要由交替堆叠的Mamba-2层和MoE层构成，仅保留少数自注意力层 [10] - 在8k输入、16k输出的典型推理场景下，Nemotron 3 Nano 30B-A3B的吞吐量是Qwen3-30B-A3B的3.3倍，且序列越长优势越明显 [12] - 在长上下文任务上，Nemotron 3 Nano基座模型在100万token输入长度的RULER基准测试中得分为68.2分，远高于同样条件下训练的Nemotron 2 Nano 12B的23.43分，显示其长度外推鲁棒性更好 [14] 架构创新：LatentMoE - 针对Super和Ultra大模型，公司提出LatentMoE架构，在潜在空间中进行专家计算以解决MoE部署瓶颈 [15] - LatentMoE将token从原始隐藏维度d投影到更小的潜在维度ℓ（通常为d的四分之一），在此低维空间完成专家路由和计算，再投影回原始维度，从而降低权重加载和通信开销 [16][17] - 标准MoE使用128个专家、激活6个，而LatentMoE使用512个专家、激活22个，两者总参数量和激活参数量相近（约8B激活、73B总参），但LatentMoE在所有下游任务上表现更优：MMLU-Pro从48.30%提升至52.87%，代码任务从51.95%提升至55.14%，数学任务从78.32%提升至80.19% [18][20][21] 低精度训练技术 - Super和Ultra模型采用NVFP4（4位浮点）格式进行训练，在GB300上其峰值吞吐量是FP8的3倍 [22] - 团队已用NVFP4格式稳定训练高达25万亿token，与BF16训练相比，Nano模型的损失差距控制在1%以内，8B激活参数的更大模型差距缩小到0.6%以内 [22] - 并非所有层都量化至NVFP4，Mamba输出投影层保留在MXFP8精度，QKV投影和注意力投影保留在BF16，网络最后15%的层也保持高精度以确保稳定性 [23] 后训练方法 - 模型后训练采用多环境强化学习，同步训练数学推理、竞赛编程、指令遵循等多种任务，该方法更稳定且能避免能力退化问题 [24][25][26] - 在此方法下，AIME25数学分数从80提升到90，LiveCodeBench从65提升到72，τ²-Bench工具使用从40提升到50左右 [27] - 在MMLU、GSM8K、HumanEval等下游任务上，NVFP4训练的模型与BF16版本的准确率曲线几乎重合 [28] - 高效的推理吞吐量对生成海量RL rollout样本至关重要，团队采用异步RL架构和多token预测来加速，并使用GRPO配合masked importance sampling算法 [30][31] - 整个后训练软件栈以Apache 2.0协议开源，包括NeMo-RL和NeMo-Gym [32] 推理功能 - 模型支持推理时的思维预算控制，用户可指定思维链的最大token数，当达到预算时，模型可基于部分思维链生成最终回答 [33][34] - 论文提供了准确率与平均生成token数之间的权衡曲线，为部署中的效率-精度平衡提供细粒度控制 [35]