老黄入局吃龙虾！英伟达发布最强开源Agent推理模型

Nemotron 3 Super 模型发布与性能表现 - 英伟达发布并开源了120B参数的MoE模型 Nemotron 3 Super [1] - 在PinchBench测试中，该模型取得85.6%的成功率，在开源模型中排名第一 [1][2] - 在Artificial Intelligence Index中，该模型获得37分，超过GPT-OSS的33分 [2] Nemotron 3 Super 技术规格与能力 - 模型原生支持100万token的上下文窗口 [4] - 吞吐量提升至上一代Nemotron Super的5倍以上 [5] - 在处理代码和工具调用等任务时，最高能实现3倍的实际推理提速 [6] - 在8k输入与64k输出的设置下，推理吞吐量达到GPT-OSS-120B的2.2倍 [7] 模型在各项基准测试中的表现 - 在SWE-Bench代码基准测试中，搭配OpenHands框架取得60.47%的准确率，高于GPT-OSS的41.9% [10] - 在Terminal Bench困难子集测试中，取得25.78%的得分，略超GPT-OSS的24.00% [10] - 在MMLU-Pro常识推理测试中，取得83.73分，高于GPT-OSS的81.00分 [11] - 在TauBench V2复杂业务场景测试中，取得61.15%的平均成绩 [13] 模型核心架构创新 - 采用混合Mamba-Transformer架构，以兼顾长序列处理效率与关联检索精度 [14][15] - 引入Latent MoE架构，通过在低秩潜空间降维处理，能在同等推理成本下调用四倍数量的专家网络 [16][17][18] - 原生应用多token预测技术，通过单次前向传递并行预测多个token，强化长程逻辑理解并内置投机解码能力 [19][20][23] - 采用原生NVFP4格式进行预训练，在25万亿个token上直接进行低精度训练，完全适应Blackwell架构 [25] - 在B200芯片上实现比H100快四倍的推理速度，同时降低内存需求 [25] 针对智能体能力的训练策略 - 在SFT阶段采用两阶段训练工艺，先通过标记级平均损失建立基础，再切换为样本级平均损失以解决长输入性能降级问题 [26] - 构建包含2万个初始查询的种子任务集，经精细过滤后沉淀出1.5万个核心合成任务，用于训练智能体命令行交互 [28] - 通过从高性能模型中蒸馏操作轨迹，将复杂的终端交互知识内化为模型技能 [29] - 在强化学习阶段，将模型投入NeMo Gym平台的21种真实环境配置中训练，考核工具调用准确性、代码可执行性及复杂计划完整性 [31][32] - 针对软件工程任务进行专门的SWE-RL阶段训练，在隔离容器中通过执行反馈修正逻辑漏洞 [33] - 引入PivotRL技术，在关键领域重点强化不确定性较高的决策点，以提升多步工作流中的行为稳定性，遏制推理漂移风险 [34] 英伟达的开源战略与资本投入 - 公司计划在未来五年内投入260亿美元（约合1789亿人民币）巨资，用于构建开源AI模型 [3][35] - 该投入旨在通过运行自家优化的开源模型，对计算、存储和网络性能进行全方位压力测试，所得数据将用于反哺和规划未来的硬件架构路线图 [36][37] - 公司对外全面开放模型的全参数权重，以及训练、评估配方和详细的部署手册 [38] - 此举旨在推动开源生态发展，引导全球开发者将创新根基绑定在英伟达的技术底座中 [39]