英伟达成开源新王?Nemotron 3全新混合专家架构,推理效率升4倍

英伟达发布Nemotron 3系列开放模型 - 公司发布了Nemotron 3系列开放模型,包含Nano、Super和Ultra三种规模,旨在应对企业从单一模型转向多智能体AI系统时面临的挑战 [2][7][8] - 该系列模型的核心目标是提供构建专业级智能体AI所需的性能与开放性,创始人黄仁勋强调开放式创新是AI进步的基石 [8] - Nemotron 3 Nano(30B-3A)模型已于发布日上线,而Super和Ultra型号预计将于2026年上半年正式推出 [8] 各型号模型规格与定位 - Nemotron 3 Nano:总参数316亿,激活参数32亿(含嵌入层为36亿),针对软件调试、内容摘要等任务优化,是计算成本效率最高的模型 [3][5] - Nemotron 3 Super:参数规模约1000亿,每个token最多激活100亿参数,擅长需要大量协作智能体且对低延迟要求极高的复杂任务 [4][5] - Nemotron 3 Ultra:参数规模约5000亿,每个token最多激活500亿参数,作为高级推理引擎,适用于深度研究与战略规划等高复杂度AI工作流 [4][5] Nano型号的性能提升与优势 - 与上代Nemotron 2 Nano相比,Nemotron 3 Nano实现了最高4倍的Token吞吐量提升,并将推理阶段生成的Token数量减少最高60% [3] - 其激活的参数数量不到上代的一半,却实现了更高的准确率,并具备100万Token的上下文窗口以增强长期记忆能力 [3] - 在单张H200、8K输入/16K输出配置下,其推理吞吐量是Qwen3-30B-A3B的3.3倍,是GPT-OSS-20B的2.2倍 [28] 核心技术:混合MoE与架构创新 - 系列模型采用Mamba-Transformer混合MoE架构,大量采用MoE层与成本更低的Mamba-2层交替堆叠,避免了传统自注意力层KV Cache线性增长的成本 [12] - 引入了LatentMoE架构,先将token投影到更小的潜在维度进行专家路由和计算,以减少专家权重加载和通信成本,并增加专家数量 [16] - 采用了多Token预测技术,一次预测多个未来token以提升准确率和推理效率,该技术仅引入极少量额外FLOPs并能带来可观的推测解码加速收益 [18][19] 训练与精度格式创新 - 公司在NVFP4数值格式下,成功实现了在Mamba-MoE混合架构上对最高25万亿tokens的稳定高精度预训练 [21] - 在GB300芯片上,FP4的峰值吞吐量是FP8的3倍,这使得在现有基础设施上训练更大规模模型成为可能 [21][37] - 模型权重、激活值和梯度均被量化为NVFP4,使得前向传播、反向传播中的梯度计算和权重更新都可以使用NVFP4 GEMM运算 [21] 超长上下文与实用能力增强 - 系列模型支持最长100万token的上下文长度,以满足大规模、多轮、具备Agentic推理的应用需求 [22] - 通过使用Mamba层天然的隐式位置信息,在注意力层中完全不使用旋转位置编码,从而避免了RoPE带来的上下文扩展限制 [22] - 引入了多环境强化学习后训练,以及推理阶段精细化推理预算控制,增强了模型在真实世界应用中的可靠性、灵活性与泛化表现 [23] 模型性能表现 - 在覆盖多个类别的主流基准测试中,Nemotron 3 Nano-30B-A3B的准确率优于GPT-OSS-20B和Qwen3-30B-A3B-Thinking-2507 [27] - 在不同上下文长度下的RULER基准测试中,其性能均优于GPT-OSS-20B和Qwen3-30B-A3B-Instruct-2507 [29] - 独立AI基准评测机构Artificial Analysis将其评为同规模模型中最开放、最高效的模型之一,并具备领先的准确率 [30] 开放生态与配套工具 - 公司不仅开源了模型,还发布了训练数据、强化学习环境和训练代码,斯坦福大学教授认为这能让用户创建自己的模型,意义重大 [6][31] - 同步发布了囊括3万亿Token的全新预训练、后训练及强化学习数据集,以及Nemotron智能体安全数据集,用于打造专业化领域智能体 [39] - 开源了NeMo Gym与NeMo RL库,并推出NeMo Evaluator,所有工具和数据集已在GitHub和Hugging Face上开放 [41] - 该系列模型已获得LM Studio、llama.cpp、SGLang和vLLM等项目的支持 [41]