从掩码生成到「再掩码」训练：RemeDi让扩散语言模型学会自我纠正与反思

文章核心观点 - 西湖大学MAPLE实验室开发了具备“再掩码”能力的扩散语言模型RemeDi 9B，该模型能在文本生成过程中识别并修正错误，从而提升生成质量 [2] - RemeDi模型通过双流协同结构为每个token输出置信度分数，实现对不确定内容的动态再掩码，超越了现有扩散语言模型的性能 [2][5][8] - 模型具备可变长生成能力，通过分块自回归生成打破了现有模型仅支持定长生成的限制 [2][9] 技术原理与创新 - 采用TPS（Token Prediction Stream）和UPS（Unmasking Policy Stream）双流结构，TPS负责预测token分布，UPS输出每个位置的置信度分数 [8][10] - 置信度分数用于决定token是否需要被再掩码，得分低的位置会被重新掩码以便后续依据更丰富上下文重写 [8][10] - 通过分块自回归生成实现可变长生成，每次生成L=32的序列块，采用分块因果注意力掩码机制 [9] 训练方法 - 采用两阶段训练策略：Remask SFT（监督微调）和Remask RL（强化学习） [12][13][17] - Remask SFT阶段同时训练模型从掩码token恢复文本和识别需要再掩码的不正确token的能力 [13] - Remask RL阶段基于Plackett-Luce模型构造解掩码策略，优化整个生成轨迹以提升生成正确答案的概率 [17][18][19] 性能表现 - 在GSM8K数学推理任务上，Remask SFT将性能从80.3提升至83.6，Remask RL进一步提升 [11][22] - 在MATH-500任务上，从基线34.7提升至Remask SFT的42.7 [11] - 在代码生成任务HumanEval上，从41.5提升至50.0 [11] - 在通用基准Hellaswag和ARC-C上，RemeDi（+Remask RL）分别达到72.2和87.7，超过其他扩散模型 [24] - 在IFEval和AlpacaEval基准上，RemeDi（+Remask RL）达到85.4和24.8，显著优于LLaDA 1.5的73.5和13.9 [24]