Workflow
大语言模型推理效率
icon
搜索文档
推理效率狂飙60倍:DiDi-Instruct让扩散大模型16步超越千步GPT
机器之心· 2025-10-27 13:23
文章核心观点 - 提出一种名为DiDi-Instruct的后训练方法,旨在对离散扩散大语言模型进行蒸馏,实现生成效率与性能的双重提升 [2][3] - DiDi-Instruct通过独创的概率分布匹配策略,将需要500步以上迭代的扩散语言“教师”模型,蒸馏成仅需8-16步生成整个文本段落的“学生”模型 [3] - 该方法在OpenWebText数据集上实现了超过64倍的推理加速,并在性能上显著超越了被蒸馏的教师扩散语言模型和自回归的GPT-2模型 [3] - 该技术展示了跨领域通用性,在蛋白质序列生成任务中也取得显著效果,为高效大语言模型落地提供了新方案 [3][17] 研究背景 - 自回归大语言模型存在逐词串行生成的固有瓶颈,在长文本生成时面临难以逾越的延迟“天花板” [6] - 扩散语言模型将文本生成重塑为从噪声序列中迭代去噪的过程,天然支持并行化生成,但现有最佳模型仍需上百次迭代才能达到与GPT-2相当的性能 [6] 技术原理与创新 - DiDi-Instruct的核心思想是最小化少步“学生”模型与多步“教师”模型在离散Token去噪轨迹上分布的积分KL散度 [7] - 关键创新包括基于策略梯度的分布匹配目标,绕过了离散空间中求导的难题 [10] - 通过对抗学习动态塑造奖励函数,引入辅助判别器网络来指导学生模型优化 [10] - 采用分组奖励归一化技术,显著降低训练梯度方差,提升训练稳定性 [10] - 实施分步式中间状态匹配,有效缓解模型熵坍塌问题,保证生成内容的多样性 [10] - 在推理阶段使用奖励驱动的祖先采样,通过“梯度引导+多候选重排序”提升最终文本质量 [10] 实验成果 - 在OpenWebText数据集上,DiDi-Instruct在8到128步的所有函数评估次数设置下,其困惑度指标全面持续地优于所有基准模型 [14] - 仅需16步函数评估,DiDi-Instruct生成的文本质量困惑度就超越了需要1024步生成的教师模型,相比最强基线模型提升超过30% [14] - 蒸馏训练过程极为高效,仅需在单张NVIDIA H100 GPU上运行约1小时即可完成,训练效率提升超过20倍 [16] - 在跨领域验证中,DiDi-Instruct成功应用于无条件蛋白质序列生成,学生模型在极少步数下即可生成结构合理的高置信度蛋白质结构 [17] 技术组件贡献分析 - 消融实验表明,中间状态匹配是框架稳定的基石,移除该模块会导致模型性能灾难性下降 [19] - 时间步耦合技术将8步生成下的困惑度从600+骤降至100左右 [25] - 引导式推理在少步数时能显著降低困惑度约30%,在多步数下则能显著提升生成样本的多样性 [25]
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
猿大侠· 2025-06-02 12:22
核心观点 - 提出两种专为推理优化的注意力机制GTA和GLA,在保持模型性能不变的情况下,将解码速度和吞吐量最高提升2倍,显著优化长上下文推理能力[1][5] - GTA是GQA的有效替代品,KV缓存用量减少约50%;GLA是MLA的实用替代品,解码速度更快,某些情况下比FlashMLA快2倍[2][3][11] - 通过优化注意力机制的内存使用和计算逻辑,提升大语言模型的推理效率和硬件资源利用率,尤其在长上下文场景中优势突出[5][8] 技术贡献 GTA(分组绑定注意力机制) - 将不同查询头的键和值状态进行组合与重用,减少内存传输次数[15] - 多头注意力的头分为若干组,每组内的头共享相同的Key和Value参数,仅查询参数独立[15] - 相比GQA,通过参数绑定实现更彻底的KV重复利用,KV缓存减少约50%[16][28] GLA(分组潜在注意力机制) - 通过共享联合潜在表示减少每个设备需要加载的KV缓存量,减少内存访问量[19] - 增加每字节内存加载的计算量,减少对内存带宽的依赖,保持并行可扩展性[18] - 解码速度比FlashMLA快2倍,随着序列长度从1K增加到64K,优势更明显[30] 实验验证 模型性能 - 在四种规模模型(183M/433M/876M/1471M)上测试,GTA在中大型模型上优于GQA,GLA与MLA相当[22][23] - 下游任务(Winogrande/SciQ等7个基准)整体表现差距不大,但GTA和GLA可保持或提高从中型到XL尺寸的性能[24][25] 效率指标 - GTA相比GQA减少约50%的KV缓存,验证参数绑定+分组重用的有效性[28] - GLA在64个并发请求的输出吞吐量上均优于MLA,处理长上下文时吞吐量更高[31][34] - MLA计算瓶颈达610 TFLOPS/s,GLA尚未饱和(360 TFLOPS/s),资源利用率更高[29] 行业影响 - 研究团队来自普林斯顿大学,核心作者Tri Dao曾提出Mamba架构和FlashAttention系列工作,在优化Transformer领域具有权威性[46][48][49] - 成果已应用于DeepSeek Coder V2 Base(236B)模型,验证了GLA在处理长上下文时的吞吐量优势[34] - 该研究是迈向推理"理想"架构的第一步,未来可能进一步推动大模型推理效率的提升[50]
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
量子位· 2025-06-01 11:40
核心观点 - 提出两种新型注意力机制GTA和GLA,在保持模型性能不变的情况下,解码速度和吞吐量最高提升2倍,显著优化长上下文推理能力[1][2][5] - GTA是GQA的有效替代品,KV缓存用量减少约50%[2][3][25] - GLA是MLA的实用替代品,解码速度更快,某些情况下比FlashMLA快2倍[2][3][29] 注意力机制优化 - 针对推理阶段的内存冗余、计算低效、长上下文瓶颈等问题重新设计注意力机制[8] - GTA通过参数绑定实现更彻底的KV重复利用,减少内存传输次数[15][16] - GLA采用双层结构,提高硬件效率并保持并行可扩展性[17][18] 实验验证 - 在四种规模模型(183M-1471M)上测试,GTA在中大型模型上优于GQA,GLA与MLA质量相当[21][22] - GTA相比GQA减少约50%的KV缓存,验证参数绑定+分组重用的有效性[25][26] - GLA在序列长度从1K增加到64K时,解码速度比FlashMLA快2倍[29] - 在DeepSeek Coder V2 Base模型上,GLA-8在长上下文处理中吞吐量明显高于MLA[33] 作者背景 - 三位作者均来自普林斯顿大学,Tri Dao因提出Mamba架构和FlashAttention系列工作闻名学界[38][44][46][47] - Tri Dao是生成式AI初创公司Together AI的首席科学家[44] - 其他作者Ted Zadouri和Hubert Strauss在机器学习和Transformer优化方面有丰富经验[39][40][41][42][43]