英伟达再出手！新型混合架构模型问世，两大创新实现53.6倍吞吐提速

模型架构创新 - 英伟达提出新型混合架构语言模型Jet-Nemotron系列，在达到全注意力模型SOTA精度的同时实现卓越效率 [2][4] - 2B版本模型性能超越Qwen3、Qwen2.5、Gemma3和Llama3.2等开源全注意力模型 [2][8] - 在H100 GPU上实现256K上下文长度下最高53.6倍生成吞吐量加速 [2][8] 技术突破 - 采用后神经架构搜索(PostNAS)技术，可在预训练Transformer模型中灵活尝试不同注意力模块设计，大幅降低开发成本和风险 [6][12] - 提出新型线性注意力模块JetBlock，结合动态卷积与硬件感知架构搜索，精度显著优于Mamba2等现有设计 [6][20][21] - PostNAS通过束搜索确定全注意力层最优位置，在MMLU基准上精度显著优于均匀放置策略 [15][16] 性能表现 - Jet-Nemotron-2B在MMLU-Pro准确率达39.0%，高于Qwen3-1.7B-Base的37.8% [5][24] - 在64K上下文长度下，H100 GPU生成吞吐量达2,885 token/s，是Qwen3-1.7B-Base(61 token/s)的47倍 [5][24] - 4B版本在GSM8K数学基准达78.7%准确率，显著超越Qwen3-1.7B-Base的62.8% [24] 效率优势 - KV缓存大小仅154MB(64K上下文)，远低于Qwen3-1.7B-Base的7,168MB [24] - 硬件感知搜索实现参数量1.62B-1.98B范围内保持154MB缓存大小，吞吐量稳定在2,952-2,986 token/s [19] - 在保持相似生成吞吐量前提下，更高参数模型可获得更高精度(检索准确率67.6%-70.1%，数学准确率31.3%-34.8%) [19] 基准测试结果 - 通用知识测试：MMLU达60.8%(2B)/65.2%(4B)，超越Qwen3-1.7B-Base的60.3% [24] - 数学能力：GSM8K达76.2%(2B)/78.7%(4B)，显著领先同类模型 [24] - 代码生成：EvalPlus基准达60.8%(2B)/65.6%(4B)，优于多数对比模型 [24]