NAS)

搜索文档
英伟达全新开源模型:三倍吞吐、单卡可跑,还拿下推理SOTA
量子位· 2025-07-29 13:05
模型发布与定位 - 英伟达推出开源模型Llama Nemotron Super v1 5,专为复杂推理和agent任务设计,在科学、数学、编程及agent任务中实现SOTA表现 [2] - 模型吞吐量提升至前代的3倍,可在单卡高效运行,实现更准、更快、更轻的性能 [2] - 模型为Llama-3 3-Nemotron-Super-49B-V1的升级版本,衍生自Meta的Llama-3 3-70B-Instruct [3] 模型架构与技术 - 采用神经架构搜索(NAS)技术,平衡准确率和效率,降低运行成本 [4] - NAS生成非标准、非重复的网络模块,包含跳过注意力机制和可变前馈网络两类变化 [6][7] - 通过跳过attention或改变FFN宽度减少FLOPs,提升资源受限时的运行效率 [8] - 对原始Llama模型进行逐模块蒸馏,构建满足单卡H100 80GB显卡吞吐量和内存要求的模型 [8][9] 训练与数据集 - 模型在FineWeb、Buzz-V1 2和Dolma三个数据集共400亿token的训练数据上进行知识蒸馏,重点关注英语单轮和多轮聊天 [10] - 后训练阶段结合监督微调(SFT)和强化学习(RL),提升代码、数学、推理和指令遵循等任务表现 [10] - 数据集包含公开语料库题目和人工合成问答样本,部分题目配有开启和关闭推理的答案,增强模型推理模式辨别能力 [10] - 英伟达表示数据集将在未来几周内发布 [11] 部署与生态 - 模型专为NVIDIA GPU加速系统设计和优化,利用GPU核心和CUDA库实现显著速度提升 [12] - 模型已开源,开发者可通过build nvidia com或Hugging Face下载体验 [13] - 模型隶属于英伟达Nemotron生态,集成大语言模型、训练与推理框架、优化工具和企业级部署方案 [14] - Nemotron生态推出Nano、Super和Ultra三个系列,分别针对边缘部署、单GPU平衡精度和最大精度数据中心场景 [16][17] 行业应用与合作 - Nemotron已获SAP、ServiceNow、Microsoft、Accenture等企业支持,用于构建企业级AI智能体平台 [17] - 在Amazon Bedrock Marketplace中可通过NVIDIA NIM微服务调用Nemotron模型,支持云端和混合架构运营方案 [17]
ICML 2025 Oral | NAS老树开新花,NUS提出智能体超网,成本狂降55%
机器之心· 2025-06-21 12:36
多智能体系统研究突破 - 提出"智能体超网"(Agentic Supernet)概念,通过动态剪裁实现任务定制化团队,性能超越现有方法最高11.82%,推理成本仅45% [4][13] - 解决传统多智能体系统两大困境:资源浪费(简单任务调用复杂系统)和任务冲突(单一架构无法适应多领域) [7] - 采用神经网络架构搜索(NAS)思想,实现按需分配算子组合,完成范式转移 [10][12] 技术架构创新 - 三层核心机制:定义概率化超网→控制器动态采样→双轨进化优化 [15][16][21][26] - 智能体算子库包含I/O、CoT、ReAct、Debate等模块,支持自定义扩展 [17][22] - 控制器采用MoE混合专家策略,通过激活分数阈值实现早停机制 [23][24][28] 性能表现 - 六大基准测试(GSM8K/MATH/HumanEval等)平均得分83.59%,超越14个基线模型0.54%-11.82% [32] - MATH训练成本仅3.38美元,较AFlow降低6.8倍,优化时间53分钟远低于行业水平 [33] - 推理token消耗减少55%,API调用成本下降58%,实现性能与成本双优化 [33][34] 应用前景 - 展示跨模型迁移能力(gpt-4o-mini→Qwen-2-72b/llama-3-70b)和跨数据集泛化性(MATH→GSM8K) [39] - 支持未知算子归纳学习,未经训练的Debate模块可被合理激活使用 [39] - 为全自动化AI系统提供动态架构生成方案,推动集体智能发展 [38]