Workflow
从掩码生成到「再掩码」训练:RemeDi让扩散语言模型学会自我纠正与反思
机器之心·2025-10-16 10:20

文章核心观点 - 西湖大学MAPLE实验室开发了具备“再掩码”能力的扩散语言模型RemeDi 9B,该模型能在文本生成过程中识别并修正错误,从而提升生成质量 [2] - RemeDi模型通过双流协同结构为每个token输出置信度分数,实现对不确定内容的动态再掩码,超越了现有扩散语言模型的性能 [2][5][8] - 模型具备可变长生成能力,通过分块自回归生成打破了现有模型仅支持定长生成的限制 [2][9] 技术原理与创新 - 采用TPS(Token Prediction Stream)和UPS(Unmasking Policy Stream)双流结构,TPS负责预测token分布,UPS输出每个位置的置信度分数 [8][10] - 置信度分数用于决定token是否需要被再掩码,得分低的位置会被重新掩码以便后续依据更丰富上下文重写 [8][10] - 通过分块自回归生成实现可变长生成,每次生成L=32的序列块,采用分块因果注意力掩码机制 [9] 训练方法 - 采用两阶段训练策略:Remask SFT(监督微调)和Remask RL(强化学习) [12][13][17] - Remask SFT阶段同时训练模型从掩码token恢复文本和识别需要再掩码的不正确token的能力 [13] - Remask RL阶段基于Plackett-Luce模型构造解掩码策略,优化整个生成轨迹以提升生成正确答案的概率 [17][18][19] 性能表现 - 在GSM8K数学推理任务上,Remask SFT将性能从80.3提升至83.6,Remask RL进一步提升 [11][22] - 在MATH-500任务上,从基线34.7提升至Remask SFT的42.7 [11] - 在代码生成任务HumanEval上,从41.5提升至50.0 [11] - 在通用基准Hellaswag和ARC-C上,RemeDi(+Remask RL)分别达到72.2和87.7,超过其他扩散模型 [24] - 在IFEval和AlpacaEval基准上,RemeDi(+Remask RL)达到85.4和24.8,显著优于LLaDA 1.5的73.5和13.9 [24]