文章核心观点 - 提出一种名为DiDi-Instruct的后训练方法,旨在对离散扩散大语言模型进行蒸馏,实现生成效率与性能的双重提升 [2][3] - DiDi-Instruct通过独创的概率分布匹配策略,将需要500步以上迭代的扩散语言“教师”模型,蒸馏成仅需8-16步生成整个文本段落的“学生”模型 [3] - 该方法在OpenWebText数据集上实现了超过64倍的推理加速,并在性能上显著超越了被蒸馏的教师扩散语言模型和自回归的GPT-2模型 [3] - 该技术展示了跨领域通用性,在蛋白质序列生成任务中也取得显著效果,为高效大语言模型落地提供了新方案 [3][17] 研究背景 - 自回归大语言模型存在逐词串行生成的固有瓶颈,在长文本生成时面临难以逾越的延迟“天花板” [6] - 扩散语言模型将文本生成重塑为从噪声序列中迭代去噪的过程,天然支持并行化生成,但现有最佳模型仍需上百次迭代才能达到与GPT-2相当的性能 [6] 技术原理与创新 - DiDi-Instruct的核心思想是最小化少步“学生”模型与多步“教师”模型在离散Token去噪轨迹上分布的积分KL散度 [7] - 关键创新包括基于策略梯度的分布匹配目标,绕过了离散空间中求导的难题 [10] - 通过对抗学习动态塑造奖励函数,引入辅助判别器网络来指导学生模型优化 [10] - 采用分组奖励归一化技术,显著降低训练梯度方差,提升训练稳定性 [10] - 实施分步式中间状态匹配,有效缓解模型熵坍塌问题,保证生成内容的多样性 [10] - 在推理阶段使用奖励驱动的祖先采样,通过“梯度引导+多候选重排序”提升最终文本质量 [10] 实验成果 - 在OpenWebText数据集上,DiDi-Instruct在8到128步的所有函数评估次数设置下,其困惑度指标全面持续地优于所有基准模型 [14] - 仅需16步函数评估,DiDi-Instruct生成的文本质量困惑度就超越了需要1024步生成的教师模型,相比最强基线模型提升超过30% [14] - 蒸馏训练过程极为高效,仅需在单张NVIDIA H100 GPU上运行约1小时即可完成,训练效率提升超过20倍 [16] - 在跨领域验证中,DiDi-Instruct成功应用于无条件蛋白质序列生成,学生模型在极少步数下即可生成结构合理的高置信度蛋白质结构 [17] 技术组件贡献分析 - 消融实验表明,中间状态匹配是框架稳定的基石,移除该模块会导致模型性能灾难性下降 [19] - 时间步耦合技术将8步生成下的困惑度从600+骤降至100左右 [25] - 引导式推理在少步数时能显著降低困惑度约30%,在多步数下则能显著提升生成样本的多样性 [25]
推理效率狂飙60倍:DiDi-Instruct让扩散大模型16步超越千步GPT
机器之心·2025-10-27 13:23