Nvidia-Meta没做的，英伟达做了，全新架构吞吐量狂飙6倍，20万亿Token训练

产品发布 - 英伟达发布全新9B参数模型NVIDIA Nemotron Nano 2 采用革命性Mamba-Transformer混合架构在数学代码推理与长上下文任务中表现对标Qwen3-8B并实现推理吞吐量最高提升6倍[1] - 模型通过Mamba-2架构实现性能突破用闪电般快速的Mamba-2层替换传统Transformer中绝大多数自注意力层在处理超长序列时推理速度比Transformer快3-5倍且复杂度为线性级别支持百万级token上下文[10][15] - 模型训练包含三个阶段首先在20万亿token数据集上预训练120亿参数基础模型再结合SFT DPO GRPO RLHF等多阶段对齐方法最后通过Minitron策略进行结构化剪枝与知识蒸馏将12B模型压缩至9B参数[17][19][21][22] 性能表现 - 在数学基准测试GSM8K和MATH500中分别达到72.1%和97.8%准确率在代码基准HumanEval+和MBPP+ 通用推理MMLU-Pro及长上下文RULER128k测试中优于或持平Qwen3-8B和Gemma3-12B等同类开源模型[23][24] - 在8k输入/16k输出场景下实现6.3倍吞吐量提升在GPQA测试中达64.0% LCB测试71.1% BFCL v3测试66.9% 指令遵循能力在IFEVAL-Prompt和IFEVAL-Instruction测试中分别达85.4%和90.3%[23][24] 开源生态 - 在HuggingFace平台全面开放三个模型：对齐并剪枝的9B推理模型经过剪枝的9B基础模型以及未剪枝的12B基础模型均支持128K上下文长度[25] - 同步开源6.6万亿token高质量预训练数据集包含Nemotron-CC-v2网页爬取数据 Nemotron-CC-Math-v1数学数据集（1330亿token） Nemotron-Pretraining-Code-v1代码数据集及Nemotron-Pretraining-SFT-v1指令调优数据集[25][26] - 提供数据集采样版本包含10个代表性子集展示高质量问答数据数学抽取内容代码元数据及SFT指令数据[27] 行业技术趋势 - 混合架构成为新方向 Mamba通过选择性机制动态调整参数专注保留相关信息擅长长上下文建模但记忆复制能力不足而Transformer存在O(n²)计算瓶颈混合架构可互补优势[16] - 多家公司推进新架构研发 Meta推进JEPA和LCMs 谷歌DeepMind在Titans Atlas Genie3等方向投入约50%研究力量 OpenAI可能储备新架构 Ilya的SSI项目疑似采用全新架构[11][14]