Workflow
Nemotron Nano v2
icon
搜索文档
英伟达开源9B参数小模型,比Qwen3快6倍
量子位· 2025-08-19 13:25
小模型技术发展 - 英伟达推出新型小型语言模型Nemotron Nano v2 该9B模型在复杂推理基准测试上准确率与Qwen3-8B相当或更高 速度提升6倍 [1][7] - 模型设计目标为兼顾推理与非推理任务的统一模型 支持"思考"预算控制 用户可指定允许"思考"的token数量 [8] - 模型采用生成推理过程后输出答案的机制 允许跳过中间推理步骤但可能降低复杂推理准确率 展示推理过程可显著提升答案质量 [10][11] 模型性能表现 - 在NeMo-Skills套件测试中 AIME25达72.1% MATH500达97.8% GPQA达64.0% LiveCodeBench达71.1% [16] - 指令遵循和长上下文测试表现优异 IFEval达90.3% RULER 128K测试达78.9% BFCL v3和HLE基准也有提升 [16] - 模型经过FP8精度预训练 使用20万亿token 采用Warmup-Stable-Decay学习率调度 后训练包含SFT/GRPO/DPO/RLHF [19][21] 开源与数据发布 - 公司首次开源用于创建模型的绝大部分数据 包括预训练语料库 [4][23] - 发布两个基础模型NVIDIA-Nemotron-Nano-12B-v2-Base和NVIDIA-Nemotron-Nano-9B-v2-Base 均支持128k上下文长度 [22] - 预训练数据集包含66万亿token 分为Nemotron-CC-v2/Nemotron-CC-Math-v1/Nemotron-Pretraining-Code-v1/Nemotron-Pretraining-SFT-v1四个类别 [26][27] 技术实现细节 - 模型压缩后支持在单个NVIDIA A10G GPU(22GiB内存)进行128k token上下文推理 采用基于Minitron的压缩策略 [25] - 通过截断思维链训练解决模型在预设思维链外"思考"的问题 实现精确的思考预算控制 [12] - 预训练阶段计算量达1.45E+24 FLOPS 能耗708.3MWh 后训练阶段计算量7.25E+22 FLOPS 能耗35.6MWh [5] 行业战略布局 - 公司构建Nemotron生态 采取开源策略 近期连续发布Llama Nemotron Super v1.5和Nemotron Nano v2 [29][30] - 开源模型对标国内Qwen3系列 展现与国外科技巨头闭源路线差异化的战略选择 [32] - 模型当前支持在线试用 公司持续强化在AI领域的技术影响力 [22][33]