硬件感知架构搜索 - 财报，业绩电话会，研报，新闻

硬件感知架构搜索

搜索文档

量子位· 2025-08-26 16:11

模型性能表现 - 在生成吞吐量上实现最高53.6倍加速，在预填充阶段达到6.1倍加速[1] - Jet-Nemotron-2B相比Qwen3-1.7B-Base吞吐量提高47倍，缓存大小缩小至1/47[3] - 实现了比DeepSeek-V3-Small和Moonlight（共150亿参数，22亿激活参数）更高的准确率[4] - Jet-Nemotron-2B在数学任务上取得49.6的平均准确率，比Qwen3-1.7B-Base高6.3，同时速度快47倍[26] - 在常识推理任务上，Jet-Nemotron-2B平均准确率达到62.0，超越所有基线模型[30] - 在检索任务上，Jet-Nemotron-4B达到76.2的最佳平均准确率，与Qwen3相比保持21倍速度提升[34] - 在编码任务上，Jet-Nemotron-2B平均准确率59.5高于所有基线模型[37] - 在长上下文任务上，Jet-Nemotron-2B性能堪比拥有更多全注意力层的领先模型[39] 技术架构创新 - 基于后神经架构搜索（PostNAS）构建，继承预训练全注意力模型的多层感知机权重并保持冻结[6][7][9] - 通过4个步骤优化：全注意力层的放置和消除、选择线性注意力模块、设计新型注意力模块、执行硬件感知架构搜索[10][13][16][19] - 引入JetBlock新型线性注意力模块，使用卷积核生成器动态生成因果卷积核[17][18] - 硬件感知架构搜索将KV缓存大小固定为原始设计规格，对key维度、value维度和注意力头数进行网格搜索[21][22] 基准测试对比 - Jet-Nemotron-2B参数2.0B，缓存大小154MB，吞吐量2,885 token/s，MMLU准确率60.8，MMLU-Pro准确率39.0，BBH准确率58.3[5] - Jet-Nemotron-4B参数4.0B，缓存大小258MB，吞吐量1,271 token/s，MMLU准确率65.2，MMLU-Pro准确率44.2，BBH准确率65.0[5] - 在Gated DeltaNet注意力模块中实现最优整体准确率，后续实验均采用该模块[15] - 在多项任务测试中表现与Qwen3-1.7B-Base相当或更优，同时全注意力层显著减少且KV缓存规模更小[42][43] 团队背景 - 研究团队全为华人，包括来自清华大学、麻省理工学院、加州大学伯克利分校等知名院校的研究人员[44][45][49][50][51][52] - 韩松教授为麻省理工学院电子工程学院副教授，提出了深度压缩技术和高效推理机，影响NVIDIA安培GPU架构[53] - 韩松是TinyML研究先驱，创办的OmniML被英伟达收购，其团队成员加入英伟达成为杰出科学家[54] - 蔡涵为NVIDIA研究院研究科学家，拥有麻省理工学院博士学位[55] 开源计划 - 研究团队计划在GitHub上公开代码和模型，目前正等待法律合规审核[23] - 参考链接包括arXiv论文和GitHub项目页面[56]