Workflow
发散思维
icon
搜索文档
与Gemini Diffusion共振!首个扩散式「发散思维链」来了
机器之心· 2025-05-26 17:40
扩散式发散思维链技术突破 - 首次提出将反向扩散过程的每一步中间结果视为大模型的非线性思考步骤,通过基于结果的强化学习优化生成轨迹,最大化最终答案正确率[1] - 突破传统思维链(CoT)的线性生成限制,允许任意顺序生成且无需严格遵循语法结构,激发模型创造性推理[1] - 在连续时间扩散模型中直接优化得分函数策略分布,在离散时间模型中设计Plackett-Luce去掩码策略[2] - 成功训练有序掩码生成扩散语言模型LLaDOU,仅用16张H800显卡即超越现有扩散模型在数学推理和代码生成任务的表现[2] 技术实现原理 - 通过离散扩散过程建模文本分布,反向去噪时生成的中间结果序列构成发散思维链(DCoLT)[11] - 采用基于最终答案正确性的强化学习,对多步动作序列整体优化而不干预中间步骤[13] - 连续时间模型SEDD通过转移概率矩阵迭代计算,离散时间模型LLaDOU引入去掩码策略模块(UPM)实现有序生成[16][21] - UPM模块通过transformer层预测掩码得分,结合Plackett-Luce模型采样生成策略,计算量增幅小于1%[22][23] 性能验证数据 - SEDD模型在GSM8K-Aug数据集达到57%准确率,超越带CoT标注的DoT方法[30] - LLaDOU 8B在数学推理任务GSM8K和MATH分别取得88.1%和44.6%准确率,代码生成任务HumanEval和MBPP通过率59.1%和51.6%[32] - 性能超越Dream 7B、LLaDA 8B等扩散模型基线,接近DeepseekMath-RL 7B等微调后的自回归模型水平[32] 行业影响 - 证明自回归模型的线性token预测并非唯一范式,开辟非线性语言生成新路径[2] - 技术框架可应用于Gemini Diffusion等主流扩散语言模型,有望成为标准训练流程[3] - 实现从早期概念要素到完整回答的渐进式构建,更贴近人类发散思维特征[7][34]