后神经架构搜索

搜索文档
英伟达再出手!新型混合架构模型问世,两大创新实现53.6倍吞吐提速
机器之心· 2025-08-26 17:38
模型架构创新 - 英伟达提出新型混合架构语言模型Jet-Nemotron系列,在达到全注意力模型SOTA精度的同时实现卓越效率 [2][4] - 2B版本模型性能超越Qwen3、Qwen2.5、Gemma3和Llama3.2等开源全注意力模型 [2][8] - 在H100 GPU上实现256K上下文长度下最高53.6倍生成吞吐量加速 [2][8] 技术突破 - 采用后神经架构搜索(PostNAS)技术,可在预训练Transformer模型中灵活尝试不同注意力模块设计,大幅降低开发成本和风险 [6][12] - 提出新型线性注意力模块JetBlock,结合动态卷积与硬件感知架构搜索,精度显著优于Mamba2等现有设计 [6][20][21] - PostNAS通过束搜索确定全注意力层最优位置,在MMLU基准上精度显著优于均匀放置策略 [15][16] 性能表现 - Jet-Nemotron-2B在MMLU-Pro准确率达39.0%,高于Qwen3-1.7B-Base的37.8% [5][24] - 在64K上下文长度下,H100 GPU生成吞吐量达2,885 token/s,是Qwen3-1.7B-Base(61 token/s)的47倍 [5][24] - 4B版本在GSM8K数学基准达78.7%准确率,显著超越Qwen3-1.7B-Base的62.8% [24] 效率优势 - KV缓存大小仅154MB(64K上下文),远低于Qwen3-1.7B-Base的7,168MB [24] - 硬件感知搜索实现参数量1.62B-1.98B范围内保持154MB缓存大小,吞吐量稳定在2,952-2,986 token/s [19] - 在保持相似生成吞吐量前提下,更高参数模型可获得更高精度(检索准确率67.6%-70.1%,数学准确率31.3%-34.8%) [19] 基准测试结果 - 通用知识测试:MMLU达60.8%(2B)/65.2%(4B),超越Qwen3-1.7B-Base的60.3% [24] - 数学能力:GSM8K达76.2%(2B)/78.7%(4B),显著领先同类模型 [24] - 代码生成:EvalPlus基准达60.8%(2B)/65.6%(4B),优于多数对比模型 [24]
英伟达韩松团队新作:具有后神经架构搜索的高效语言模型
量子位· 2025-08-26 16:11
模型性能表现 - 在生成吞吐量上实现最高53.6倍加速,在预填充阶段达到6.1倍加速[1] - Jet-Nemotron-2B相比Qwen3-1.7B-Base吞吐量提高47倍,缓存大小缩小至1/47[3] - 实现了比DeepSeek-V3-Small和Moonlight(共150亿参数,22亿激活参数)更高的准确率[4] - Jet-Nemotron-2B在数学任务上取得49.6的平均准确率,比Qwen3-1.7B-Base高6.3,同时速度快47倍[26] - 在常识推理任务上,Jet-Nemotron-2B平均准确率达到62.0,超越所有基线模型[30] - 在检索任务上,Jet-Nemotron-4B达到76.2的最佳平均准确率,与Qwen3相比保持21倍速度提升[34] - 在编码任务上,Jet-Nemotron-2B平均准确率59.5高于所有基线模型[37] - 在长上下文任务上,Jet-Nemotron-2B性能堪比拥有更多全注意力层的领先模型[39] 技术架构创新 - 基于后神经架构搜索(PostNAS)构建,继承预训练全注意力模型的多层感知机权重并保持冻结[6][7][9] - 通过4个步骤优化:全注意力层的放置和消除、选择线性注意力模块、设计新型注意力模块、执行硬件感知架构搜索[10][13][16][19] - 引入JetBlock新型线性注意力模块,使用卷积核生成器动态生成因果卷积核[17][18] - 硬件感知架构搜索将KV缓存大小固定为原始设计规格,对key维度、value维度和注意力头数进行网格搜索[21][22] 基准测试对比 - Jet-Nemotron-2B参数2.0B,缓存大小154MB,吞吐量2,885 token/s,MMLU准确率60.8,MMLU-Pro准确率39.0,BBH准确率58.3[5] - Jet-Nemotron-4B参数4.0B,缓存大小258MB,吞吐量1,271 token/s,MMLU准确率65.2,MMLU-Pro准确率44.2,BBH准确率65.0[5] - 在Gated DeltaNet注意力模块中实现最优整体准确率,后续实验均采用该模块[15] - 在多项任务测试中表现与Qwen3-1.7B-Base相当或更优,同时全注意力层显著减少且KV缓存规模更小[42][43] 团队背景 - 研究团队全为华人,包括来自清华大学、麻省理工学院、加州大学伯克利分校等知名院校的研究人员[44][45][49][50][51][52] - 韩松教授为麻省理工学院电子工程学院副教授,提出了深度压缩技术和高效推理机,影响NVIDIA安培GPU架构[53] - 韩松是TinyML研究先驱,创办的OmniML被英伟达收购,其团队成员加入英伟达成为杰出科学家[54] - 蔡涵为NVIDIA研究院研究科学家,拥有麻省理工学院博士学位[55] 开源计划 - 研究团队计划在GitHub上公开代码和模型,目前正等待法律合规审核[23] - 参考链接包括arXiv论文和GitHub项目页面[56]