Workflow
英伟达新模型上线,4B推理狂飙53倍,全新注意力架构超越Mamba 2
英伟达英伟达(US:NVDA) 36氪·2025-08-27 10:03

产品发布 - 英伟达推出全新Jet-Nemotron小模型系列 包含2B和4B两个版本[1][2] - 该系列由全华人团队打造 核心创新为后神经架构搜索(PostNAS)与新型线性注意力模块JetBlock[1][8] - 相比前代产品 公司近期密集布局小模型领域 上周刚发布9B大小的NVIDIA Nemotron Nano 2模型[5][7] 技术架构 - PostNAS采用训练后架构探索与适配方法 在预训练Transformer模型基础上构建 大幅降低开发新架构的成本和风险[9][10] - 该方法首先确定全注意力层最佳放置位置 再搜索改进的注意力块设计[9][14] - JetBlock模块将动态卷积与硬件感知架构搜索结合 在保持训练和推理吞吐量的同时实现显著准确率提升[18] 性能表现 - 在H100 GPU上推理吞吐量最高提升53.6倍 其中Jet-Nemotron-2B相对Qwen 3-1.7B在长上下文场景解码吞吐量可达50倍提升[1][4][5] - 在六个核心维度(MMLU-pro、Math、Retrieval、Commonsense、Code、Long)表现全面领先 雷达图呈现"六边形战士"特征[4] - 具体数据:Jet-Nemotron-4B在GSM8K数学测试达78.7分 显著高于Qwen3-1.7B的62.8分;在代码测试EvalPlus达65.6分 优于对比模型[21] 效率优化 - KV缓存大小是影响长上下文和长生成吞吐量的最关键因素 PostNAS硬件感知搜索能发现更多参数同时保持相似生成吞吐量的架构[16] - Jet-Nemotron-4B在64k上下文长度下缓存大小仅154MB 远小于Qwen3-1.7B的7168MB 最大吞吐量达1271 token/s[21] - 架构优化使模型在保持高准确率的同时 实现数量级的吞吐量提升 特别是在长上下文场景优势更加明显[5][16]