扩散式「发散思维链」

搜索文档
与Gemini Diffusion共振!首个扩散式「发散思维链」来了
机器之心· 2025-05-26 17:40
近年来,思维链在大模型训练和推理中愈发重要。近日,西湖大学 MAPLE 实验室齐国君教授团队首次提出扩散式「发散思维链」—— 一种面向扩散语言模型的 新型大模型推理范式。该方法将反向扩散过程中的每一步中间结果都看作大模型的一个「思考」步骤,然后利用基于结果的强化学习去优化整个生成轨迹,最大 化模型最终答案的正确率。不同于始终单向推理、线性生成的传统思维链(CoT),扩散式「发散思维链」允许模型以任意顺序非线性生成,且在生成过程中无需 严格遵从语法结构和可读性要求,能够鼓励模型以更加发散、创造性的方法开展推理。 扩散式「发散思维链」目前已成功应用于两种具有代表性的扩散语言模型中。在连续时间扩散语言模型中,该方法可以直接优化由模型输出的得分函数所确定的 策略分布;而在离散时间扩散语言模型中,团队将预测不同掩码 Token 的顺序当作模型决策的一部分,并基于 Plackett-Luce 模型设计去掩码策略。据此,团队成 功训练有序掩码生成扩散语言模型( L arge L anguage D iffusion with O rdered U nmasking, LLaDOU )。实验表明,仅用公开数据集和 16 张 ...