JetBlock

搜索文档
英伟达新模型上线,4B推理狂飙53倍,全新注意力架构超越Mamba 2
36氪· 2025-08-27 10:03
产品发布 - 英伟达推出全新Jet-Nemotron小模型系列 包含2B和4B两个版本[1][2] - 该系列由全华人团队打造 核心创新为后神经架构搜索(PostNAS)与新型线性注意力模块JetBlock[1][8] - 相比前代产品 公司近期密集布局小模型领域 上周刚发布9B大小的NVIDIA Nemotron Nano 2模型[5][7] 技术架构 - PostNAS采用训练后架构探索与适配方法 在预训练Transformer模型基础上构建 大幅降低开发新架构的成本和风险[9][10] - 该方法首先确定全注意力层最佳放置位置 再搜索改进的注意力块设计[9][14] - JetBlock模块将动态卷积与硬件感知架构搜索结合 在保持训练和推理吞吐量的同时实现显著准确率提升[18] 性能表现 - 在H100 GPU上推理吞吐量最高提升53.6倍 其中Jet-Nemotron-2B相对Qwen 3-1.7B在长上下文场景解码吞吐量可达50倍提升[1][4][5] - 在六个核心维度(MMLU-pro、Math、Retrieval、Commonsense、Code、Long)表现全面领先 雷达图呈现"六边形战士"特征[4] - 具体数据:Jet-Nemotron-4B在GSM8K数学测试达78.7分 显著高于Qwen3-1.7B的62.8分;在代码测试EvalPlus达65.6分 优于对比模型[21] 效率优化 - KV缓存大小是影响长上下文和长生成吞吐量的最关键因素 PostNAS硬件感知搜索能发现更多参数同时保持相似生成吞吐量的架构[16] - Jet-Nemotron-4B在64k上下文长度下缓存大小仅154MB 远小于Qwen3-1.7B的7168MB 最大吞吐量达1271 token/s[21] - 架构优化使模型在保持高准确率的同时 实现数量级的吞吐量提升 特别是在长上下文场景优势更加明显[5][16]
英伟达再出手!新型混合架构模型问世,两大创新实现53.6倍吞吐提速
机器之心· 2025-08-26 17:38
模型架构创新 - 英伟达提出新型混合架构语言模型Jet-Nemotron系列,在达到全注意力模型SOTA精度的同时实现卓越效率 [2][4] - 2B版本模型性能超越Qwen3、Qwen2.5、Gemma3和Llama3.2等开源全注意力模型 [2][8] - 在H100 GPU上实现256K上下文长度下最高53.6倍生成吞吐量加速 [2][8] 技术突破 - 采用后神经架构搜索(PostNAS)技术,可在预训练Transformer模型中灵活尝试不同注意力模块设计,大幅降低开发成本和风险 [6][12] - 提出新型线性注意力模块JetBlock,结合动态卷积与硬件感知架构搜索,精度显著优于Mamba2等现有设计 [6][20][21] - PostNAS通过束搜索确定全注意力层最优位置,在MMLU基准上精度显著优于均匀放置策略 [15][16] 性能表现 - Jet-Nemotron-2B在MMLU-Pro准确率达39.0%,高于Qwen3-1.7B-Base的37.8% [5][24] - 在64K上下文长度下,H100 GPU生成吞吐量达2,885 token/s,是Qwen3-1.7B-Base(61 token/s)的47倍 [5][24] - 4B版本在GSM8K数学基准达78.7%准确率,显著超越Qwen3-1.7B-Base的62.8% [24] 效率优势 - KV缓存大小仅154MB(64K上下文),远低于Qwen3-1.7B-Base的7,168MB [24] - 硬件感知搜索实现参数量1.62B-1.98B范围内保持154MB缓存大小,吞吐量稳定在2,952-2,986 token/s [19] - 在保持相似生成吞吐量前提下,更高参数模型可获得更高精度(检索准确率67.6%-70.1%,数学准确率31.3%-34.8%) [19] 基准测试结果 - 通用知识测试:MMLU达60.8%(2B)/65.2%(4B),超越Qwen3-1.7B-Base的60.3% [24] - 数学能力:GSM8K达76.2%(2B)/78.7%(4B),显著领先同类模型 [24] - 代码生成:EvalPlus基准达60.8%(2B)/65.6%(4B),优于多数对比模型 [24]