Workflow
扩散语言模型(Diffusion LLM)
icon
搜索文档
扩散语言模型总是均匀发力,华为诺亚教它「抓重点」
机器之心· 2026-03-22 13:34
文章核心观点 - 华为诺亚方舟实验室的研究提出了一种针对扩散语言模型(Diffusion LLM)的“智能”掩码训练范式,其核心在于认识到文本序列中不同token的信息密度不同,不应在训练时均匀对待[3][4][5] - 该方法通过优先掩码高信息密度的关键位置(如代码中的逻辑判断或数学中的关键步骤),并配合互补掩码策略,引导模型更高效地学习,从而在未改变模型主干结构的情况下,显著提升了模型在代码和数学推理任务上的性能[5][9][10][12] - 研究揭示了扩散模型训练中注意力分配的重要性,表明通过优化训练过程本身(如噪声调度),而非增加模型复杂度,就能挖掘模型的潜在性能,这为扩散语言模型的训练提供了新的思路[14][21][22] 研究方法与范式创新 - **问题识别**:当前离散扩散语言模型训练中普遍采用的均匀随机掩码策略存在缺陷,它默认所有位置信息密度相同,导致模型将优化资源浪费在非关键内容上,这在代码和数学推理等任务中尤为突出[3] - **核心方案**:提出“输入信息密度感知”的噪声调度器,其工作流程分为两步:首先提取样本中的高信息密度区域并标记;然后在训练时,对这些“优先区域”赋予更高的掩码概率,同时控制整体掩码比例,迫使模型学习恢复关键部分[5][8][9] - **互补训练**:为避免模型过度关注“重点”而忽视语言结构,对同一样本同时使用优先掩码及其逻辑互补掩码进行训练,使模型既能掌握关键逻辑,也能学习语法与上下文连贯性,实现学习目标的解耦[10] 实验结果与性能提升 - **整体性能**:在LLaDA-2.0-mini模型上,使用新方法(Code 10% + Math 50%数据)在HumanEval、MBPP、GSM8K、MATH500四个基准测试上的平均成绩达到59.19,相比使用均匀随机掩码的基线方法(平均55.32)提升了约4%[12][13] - **关键消融实验**:研究发现,确定性的“硬掩码”(即完全遮掉关键区域)效果不佳,而带概率的“软掩码”性能更好,因为硬掩码会造成连续关键信息缺失,引发“上下文崩溃”,导致训练不稳定[15][18] - **数据效率**:该方法具有很高的数据效率,仅对10%的代码数据进行高信息密度区域处理,就能将平均成绩从基线55.32提升至59.45,处理更多数据带来的性能提升会逐渐饱和,甚至可能因领域偏移导致数学任务性能下降[20] 研究意义与未来方向 - **范式意义**:该工作表明,对于扩散语言模型,掩码策略是训练逻辑的核心部分而非配角,优化训练信号的分配(即“让模型学什么”)是挖掘模型潜力的有效途径[14][22] - **低成本可行性**:研究证明,无需对全部训练数据进行昂贵处理或重构训练流水线,仅需在一小部分数据上引入结构化先验,即可显著提升模型性能,这降低了应用门槛[20] - **未来展望**:当前的信息密度提取方法仍是离线和启发式的,未来可探索基于抽象语法树(AST)的规则提取、基于模型置信度的自适应提取,或端到端可学习的对抗式掩码模块等方向[22]