Workflow
硬件感知架构搜索
icon
搜索文档
英伟达韩松团队新作:具有后神经架构搜索的高效语言模型
量子位· 2025-08-26 16:11
模型性能表现 - 在生成吞吐量上实现最高53.6倍加速,在预填充阶段达到6.1倍加速[1] - Jet-Nemotron-2B相比Qwen3-1.7B-Base吞吐量提高47倍,缓存大小缩小至1/47[3] - 实现了比DeepSeek-V3-Small和Moonlight(共150亿参数,22亿激活参数)更高的准确率[4] - Jet-Nemotron-2B在数学任务上取得49.6的平均准确率,比Qwen3-1.7B-Base高6.3,同时速度快47倍[26] - 在常识推理任务上,Jet-Nemotron-2B平均准确率达到62.0,超越所有基线模型[30] - 在检索任务上,Jet-Nemotron-4B达到76.2的最佳平均准确率,与Qwen3相比保持21倍速度提升[34] - 在编码任务上,Jet-Nemotron-2B平均准确率59.5高于所有基线模型[37] - 在长上下文任务上,Jet-Nemotron-2B性能堪比拥有更多全注意力层的领先模型[39] 技术架构创新 - 基于后神经架构搜索(PostNAS)构建,继承预训练全注意力模型的多层感知机权重并保持冻结[6][7][9] - 通过4个步骤优化:全注意力层的放置和消除、选择线性注意力模块、设计新型注意力模块、执行硬件感知架构搜索[10][13][16][19] - 引入JetBlock新型线性注意力模块,使用卷积核生成器动态生成因果卷积核[17][18] - 硬件感知架构搜索将KV缓存大小固定为原始设计规格,对key维度、value维度和注意力头数进行网格搜索[21][22] 基准测试对比 - Jet-Nemotron-2B参数2.0B,缓存大小154MB,吞吐量2,885 token/s,MMLU准确率60.8,MMLU-Pro准确率39.0,BBH准确率58.3[5] - Jet-Nemotron-4B参数4.0B,缓存大小258MB,吞吐量1,271 token/s,MMLU准确率65.2,MMLU-Pro准确率44.2,BBH准确率65.0[5] - 在Gated DeltaNet注意力模块中实现最优整体准确率,后续实验均采用该模块[15] - 在多项任务测试中表现与Qwen3-1.7B-Base相当或更优,同时全注意力层显著减少且KV缓存规模更小[42][43] 团队背景 - 研究团队全为华人,包括来自清华大学、麻省理工学院、加州大学伯克利分校等知名院校的研究人员[44][45][49][50][51][52] - 韩松教授为麻省理工学院电子工程学院副教授,提出了深度压缩技术和高效推理机,影响NVIDIA安培GPU架构[53] - 韩松是TinyML研究先驱,创办的OmniML被英伟达收购,其团队成员加入英伟达成为杰出科学家[54] - 蔡涵为NVIDIA研究院研究科学家,拥有麻省理工学院博士学位[55] 开源计划 - 研究团队计划在GitHub上公开代码和模型,目前正等待法律合规审核[23] - 参考链接包括arXiv论文和GitHub项目页面[56]