Nvidia-老黄入局吃龙虾，英伟达发布最强开源Agent推理模型

公司战略与资本投入 - 英伟达宣布未来五年将投入260亿美元（约合1789亿人民币）巨资，用于构建开源AI模型 [1][17] - 该笔投入不仅用于模型研发，还将通过在自有的超级计算机级数据中心运行这些模型，对计算、存储和网络性能进行全方位压力测试，以反哺并规划未来的硬件架构路线图 [17] - 公司对外全面开放模型的全参数权重、训练与评估配方以及详细的部署手册，旨在推动开源生态发展，并将全球开发者的创新根基绑定在自身技术底座上 [17] 新产品发布与技术规格 - 英伟达发布并开源了120B参数的MoE模型Nemotron 3 Super [1] - 该模型原生支持100万token的上下文窗口，为多智能体协同处理复杂多步流程提供长期记忆空间 [2] - 模型吞吐量提升至上一代Nemotron Super的5倍以上，在处理代码和工具调用等结构化生成任务时，最高能实现3倍的实际推理提速 [2] - 在8k输入与64k输出的特定设置下，其推理吞吐量达到了GPT-OSS-120B模型的2.2倍 [2] 模型性能与基准测试结果 - 在评估智能体控制能力的PinchBench测试中，Nemotron 3 Super获得85.6%的高分，位列同类开源模型榜首 [1] - 在Artificial Intelligence Index中，该模型获得37分，超过得分33分的GPT-OSS [1] - 在软件工程基准SWE-Bench中，模型搭配OpenHands框架取得60.47%的准确率，高于GPT-OSS的41.9% [4] - 在Terminal Bench的困难子集测试中，模型得分为25.78%，略超GPT-OSS的24.00% [4] - 在常识推理测试MMLU-Pro中，模型拿下83.73分，相比GPT-OSS的81.00分有所提升 [4] - 在模拟真实业务的TauBench V2测试中，模型在航空、零售和电信三大领域取得61.15%的平均成绩 [4] 核心架构与技术创新 - 模型采用混合Mamba-Transformer架构，以在处理百万级上下文时兼顾效率与精度 [6] - 引入了Latent MoE架构，通过将token投影到低秩潜空间降维，在维持同等推理成本的前提下调用四倍数量的专家网络，实现更精细的专业化分工 [7] - 原生应用多token预测技术，通过共享权重设计在单次前向传递中并行预测多个token，强化长程逻辑理解并内置投机解码能力，显著缩短复杂任务的生成耗时 [8] - 在硬件层面采用原生NVFP4格式进行预训练，在25万亿个token上进行的低精度预训练让模型从起步阶段就适应Blackwell架构的算力特性 [11] - 最终模型在B200芯片上的推理速度比H100快四倍，在极大降低内存需求的同时维持稳健的准确率 [11] 智能体能力训练方法 - 在后训练阶段采用两阶段SFT工艺：第一阶段通过标记级平均损失建立推理基础，第二阶段切换为样本级平均损失，解决了长输入场景下的性能降级问题 [12] - 针对智能体命令行交互，构建了包含2万个初始查询的种子任务集，并利用模型作为裁判过滤出1.5万个核心合成任务，通过从高性能模型中蒸馏操作轨迹内化终端交互知识 [14] - 在强化学习阶段，模型在NeMo Gym平台的21种真实环境配置中进行高强度训练，考核标准深入到工具调用准确性、功能代码可执行性及复杂计划完整性等核心维度 [16] - 针对软件工程任务，经历了专门的SWE-RL阶段，在隔离容器环境中通过执行反馈修正逻辑漏洞 [16] - 引入PivotRL技术，在智能体编程和搜索等关键领域重点强化专家轨迹中不确定性较高的决策点，以提升模型在多步工作流中的行为稳定性，遏制推理漂移风险 [16]