KD） - 财报，业绩电话会，研报，新闻

KD）

搜索文档

NeurIPS 2025 Spotlight | 选择性知识蒸馏精准过滤：推测解码加速器AdaSPEC来了

机器之心· 2025-11-06 11:28

研究背景与问题 - 大型语言模型自回归解码机制导致推理延迟高、计算开销大，成为部署瓶颈 [6] - 推测解码使用小草稿模型生成候选预测再由大目标模型验证，可加速推理但效果高度依赖两模型预测一致性 [8] - 传统知识蒸馏方法让草稿模型模仿目标模型输出分布，但草稿模型容量有限，难以完整吸收目标模型知识，在巨大尺寸差异下可能导致训练不收敛 [2][8] 解决方案：AdaSPEC方法 - 提出选择性知识蒸馏方法AdaSPEC，引入参考模型识别并过滤难以学习的token，使蒸馏聚焦于易学习部分 [3][9] - 采用双阶段训练框架，先通过参考模型初步蒸馏并过滤微调数据集，再在过滤后的子集上优化草稿模型 [11] - 该方法具备高模块化兼容性，可无缝结合EAGLE、vLLM等推测解码框架，核心实现不到百行代码 [12] 实验效果与性能提升 - 在多种模型组合（Pythia-31M/1.4B、CodeGen-350M/Phi-2）和任务（算术推理、指令跟随、代码生成、文本摘要）上系统评估 [3][14] - token接受率全线超越基线方法DistillSpec，在GSM8K任务上提升5–6%，在MBPP任务上最高提升15% [15][16] - 实际端到端推理速度提升显著，经vLLM框架测速加速可达10–20%，结合EAGLE框架微调后生成速度再提高7.5% [16] 总结与未来方向 - 该方法为推测解码提供了精准、高效、通用的加速新范式，通过选择性蒸馏实现动态对齐 [16] - 未来研究方向包括探索token难度的动态估计机制，以及将AdaSPEC应用于多模态与推理型大模型验证跨模态适配能力 [17]

大型语言模型（LLM）

推测解码（Speculative Decoding

SD）

知识蒸馏（Knowledge Distillation

KD）

选择性知识蒸馏

大型语言模型（LLM）

推测解码（Speculative Decoding

SD）

知识蒸馏（Knowledge Distillation

KD）

选择性知识蒸馏

英伟达全新开源模型：三倍吞吐、单卡可跑，还拿下推理SOTA

量子位· 2025-07-29 13:05

模型发布与定位 - 英伟达推出开源模型Llama Nemotron Super v1 5，专为复杂推理和agent任务设计，在科学、数学、编程及agent任务中实现SOTA表现 [2] - 模型吞吐量提升至前代的3倍，可在单卡高效运行，实现更准、更快、更轻的性能 [2] - 模型为Llama-3 3-Nemotron-Super-49B-V1的升级版本，衍生自Meta的Llama-3 3-70B-Instruct [3] 模型架构与技术 - 采用神经架构搜索（NAS）技术，平衡准确率和效率，降低运行成本 [4] - NAS生成非标准、非重复的网络模块，包含跳过注意力机制和可变前馈网络两类变化 [6][7] - 通过跳过attention或改变FFN宽度减少FLOPs，提升资源受限时的运行效率 [8] - 对原始Llama模型进行逐模块蒸馏，构建满足单卡H100 80GB显卡吞吐量和内存要求的模型 [8][9] 训练与数据集 - 模型在FineWeb、Buzz-V1 2和Dolma三个数据集共400亿token的训练数据上进行知识蒸馏，重点关注英语单轮和多轮聊天 [10] - 后训练阶段结合监督微调（SFT）和强化学习（RL），提升代码、数学、推理和指令遵循等任务表现 [10] - 数据集包含公开语料库题目和人工合成问答样本，部分题目配有开启和关闭推理的答案，增强模型推理模式辨别能力 [10] - 英伟达表示数据集将在未来几周内发布 [11] 部署与生态 - 模型专为NVIDIA GPU加速系统设计和优化，利用GPU核心和CUDA库实现显著速度提升 [12] - 模型已开源，开发者可通过build nvidia com或Hugging Face下载体验 [13] - 模型隶属于英伟达Nemotron生态，集成大语言模型、训练与推理框架、优化工具和企业级部署方案 [14] - Nemotron生态推出Nano、Super和Ultra三个系列，分别针对边缘部署、单GPU平衡精度和最大精度数据中心场景 [16][17] 行业应用与合作 - Nemotron已获SAP、ServiceNow、Microsoft、Accenture等企业支持，用于构建企业级AI智能体平台 [17] - 在Amazon Bedrock Marketplace中可通过NVIDIA NIM微服务调用Nemotron模型，支持云端和混合架构运营方案 [17]

英伟达(US:NVDA)

神经架构搜索（Neural Architecture Search

NAS）

知识蒸馏（knowledge distillation

KD）

Artificial Intelligence

Llama Nemotron Super v1.5

神经架构搜索（Neural Architecture Search

NAS）

知识蒸馏（knowledge distillation

KD）

Artificial Intelligence

Llama Nemotron Super v1.5