老黄入局吃龙虾!英伟达发布最强开源Agent推理模型
英伟达英伟达(US:NVDA) 量子位·2026-03-12 12:40

Nemotron 3 Super 模型发布与性能表现 - 英伟达发布并开源了120B参数的MoE模型 Nemotron 3 Super [1] - 在PinchBench测试中,该模型取得85.6%的成功率,在开源模型中排名第一 [1][2] - 在Artificial Intelligence Index中,该模型获得37分,超过GPT-OSS的33分 [2] Nemotron 3 Super 技术规格与能力 - 模型原生支持100万token的上下文窗口 [4] - 吞吐量提升至上一代Nemotron Super的5倍以上 [5] - 在处理代码和工具调用等任务时,最高能实现3倍的实际推理提速 [6] - 在8k输入与64k输出的设置下,推理吞吐量达到GPT-OSS-120B的2.2倍 [7] 模型在各项基准测试中的表现 - 在SWE-Bench代码基准测试中,搭配OpenHands框架取得60.47%的准确率,高于GPT-OSS的41.9% [10] - 在Terminal Bench困难子集测试中,取得25.78%的得分,略超GPT-OSS的24.00% [10] - 在MMLU-Pro常识推理测试中,取得83.73分,高于GPT-OSS的81.00分 [11] - 在TauBench V2复杂业务场景测试中,取得61.15%的平均成绩 [13] 模型核心架构创新 - 采用混合Mamba-Transformer架构,以兼顾长序列处理效率与关联检索精度 [14][15] - 引入Latent MoE架构,通过在低秩潜空间降维处理,能在同等推理成本下调用四倍数量的专家网络 [16][17][18] - 原生应用多token预测技术,通过单次前向传递并行预测多个token,强化长程逻辑理解并内置投机解码能力 [19][20][23] - 采用原生NVFP4格式进行预训练,在25万亿个token上直接进行低精度训练,完全适应Blackwell架构 [25] - 在B200芯片上实现比H100快四倍的推理速度,同时降低内存需求 [25] 针对智能体能力的训练策略 - 在SFT阶段采用两阶段训练工艺,先通过标记级平均损失建立基础,再切换为样本级平均损失以解决长输入性能降级问题 [26] - 构建包含2万个初始查询的种子任务集,经精细过滤后沉淀出1.5万个核心合成任务,用于训练智能体命令行交互 [28] - 通过从高性能模型中蒸馏操作轨迹,将复杂的终端交互知识内化为模型技能 [29] - 在强化学习阶段,将模型投入NeMo Gym平台的21种真实环境配置中训练,考核工具调用准确性、代码可执行性及复杂计划完整性 [31][32] - 针对软件工程任务进行专门的SWE-RL阶段训练,在隔离容器中通过执行反馈修正逻辑漏洞 [33] - 引入PivotRL技术,在关键领域重点强化不确定性较高的决策点,以提升多步工作流中的行为稳定性,遏制推理漂移风险 [34] 英伟达的开源战略与资本投入 - 公司计划在未来五年内投入260亿美元(约合1789亿人民币)巨资,用于构建开源AI模型 [3][35] - 该投入旨在通过运行自家优化的开源模型,对计算、存储和网络性能进行全方位压力测试,所得数据将用于反哺和规划未来的硬件架构路线图 [36][37] - 公司对外全面开放模型的全参数权重,以及训练、评估配方和详细的部署手册 [38] - 此举旨在推动开源生态发展,引导全球开发者将创新根基绑定在英伟达的技术底座中 [39]