文章核心观点 - 文章认为扩散语言模型在算法基础层面具有巨大潜力,可能对当前主流的自回归模型范式带来冲击,并系统性地阐述了当前扩散语言模型面临的十大关键挑战及初步解决思路[4][5] 扩散语言模型当前面临的挑战与潜在研究方向 - 推理高效架构:当前扩散模型沿用自回归模型的注意力机制,但由于掩码位置的随机性,导致提升自回归模型推理效率的关键值缓存复用机制失效,这是阻碍其广泛应用的主要问题之一,需要探索更适合扩散模型的注意力结构或更有结构性的掩码方式[6] - 更适配的词表:理想的扩散模型不应遵循自回归模型的现有范式,其分词器应具有结构性,例如不同粒度的分词器分别负责段落联系、细节修改和快速填充空缺,形成类似金字塔的词表结构,以模仿人类多尺度的思考与写作方式[9] - 更好的优化范式:扩散模型在优化上面临梯度计算低效的问题,例如在128k长序列中仅掩码一个词元时,需为单个词元进行大量计算,导致训练开销下的模型精度不如自回归模型,同时预训练与有监督微调阶段的掩码策略不一致也带来了挑战[9] - 更优的掩码方式:当前主流扩散模型通常只使用一个掩码词元,功能单一且缺乏多样性,同时所有位置被掩码的概率相等,缺乏结构化机制,无法根据内容重要性进行差异化处理[9] - 动态长度输出:扩散模型虽具有并行解码优势,但通常需要预先给定输出长度,对于需要自适应推断最优输出长度的任务存在局限,例如回答“9.11和9.8哪个大”可能不必要地生成100k词元[9][10] - 适配模型的数据工程:当前扩散模型大多复用自回归模型的数据集,虽然通用知识可被学习,但若要激发扩散模型在结构化知识和推理上的潜力,需对数据进行优化,如在预训练数据中增加掩码位置信息或对重要词元进行标注[10] - 资源高效的模型优化:在基础模型结构尚未收敛时,提升整体推理效率是关键,尤其是在加大批次规模后,全局扩散推理在部分场景劣于自回归模型,潜在优化方向包括扩散多步蒸馏、投机推理、低比特量化及与自回归模型的高效组合使用[10] - 慢思考及隐式思考:扩散模型在有监督微调中,通过去噪过程在预定长度空间生成答案,传统的顺序思维链方法对其可能低效,未能充分利用其潜能,扩散模型特有的重新掩码能力为深度思考和隐式思考提供了更大可能性[10] - 结构化的提示词工程和记忆:扩散模型可同时向前和向后查看词元的特性,要求探索更适合其模式的提示格式与方法,例如将自回归的问答式提示变为完形填空式,或仅提供几个全局关键词元以辅助快速解码,这对代码、深度研究和智能体场景有益[10][11] - 未来的统一架构:面向多模态未来,探索更统一的模型结构和训练范式至关重要,当前理解类任务多用自回归模型,生成类任务多用扩散模型,例如在视觉语言动作模型中,能否用离散扩散模型将视觉、语言和动作三部分融合是一个极具潜力的研究方向[11]
扩散语言模型深度思考
机器之心·2026-02-08 18:37