扩散语言模型的发展历程与核心观点 - 文章核心观点认为,扩散模型,特别是掩码扩散模型,是自回归模型之外一条有潜力通往语言智能的重要路径,其发展经历了从基础研究到规模化探索的两个阶段,并在近期展现出与自回归模型相媲美的潜力 [3][14][16] 第一阶段:2022-2024年底的基础研究阶段 - 此阶段扩散语言模型相对小众,研究主要分为连续扩散模型和离散扩散模型两条技术路线 [4][5] - 连续扩散模型:早期尝试将基于高斯噪声的连续扩散模型直接应用于语言数据,或在其概率参数空间进行约束建模,但可扩展性存疑 [6][7] - 离散扩散模型:掩码扩散模型被证明比均匀转移核的模型效果更好,逐渐成为研究重心 [8] - 关键理论突破包括证明了MDM模型中时间变量t是冗余的,可以将其从模型输入中移除,这一发现简化了模型结构,并建立了与BERT、MaskGIT等模型的联系 [9][10][11] 第二阶段:2024年底-2025年初的规模化阶段 - 研究重心从基础理论转向模型规模化扩展与能力验证 [14] - 学术界工作: - 2024年10月,首个MDM的缩放定律研究完成,实验表明在GPT-2规模下,从头训练的MDM表现不亚于自回归模型 [16] - 2025年2月,发布了首个支持多轮对话的MDM模型LLaDA 8B,其能力可与LLaMA 3 8B媲美,并进行了全面开源 [16] - 后续涌现出更多在语言对齐、推理、多模态及加速技术方面的研究工作 [17] - 工业界工作: - 继LLaDA开源后,出现了如Inception Lab的Mercury coder和谷歌的Gemini Diffusion等产品,但技术细节披露较少 [19] MDM与BERT/MaskGIT的关系及命名争议 - 从技术发展脉络看,MDM沿袭了扩散模型的概率建模思路,其历史可追溯至2015年,早于BERT [11] - 尽管通过理论简化(如移除时间变量t、使用固定掩码)后,MDM在形式上与BERT有相似之处,但二者本质区别在于MDM是一个完整的生成模型,具备定义联合概率分布和采样生成的能力,而BERT不是 [11][12] - 作者认为“扩散”是更合适的名称,因其能准确反映其生成模型的特质和技术发展路径 [12] LLaDA模型的贡献与认知价值 - LLaDA被视为一项标志性工作,其核心贡献在于改变了业界对扩散模型能否在语言任务上取得成功的认知,证明了这条技术路径的可行性 [21] - 该工作表明,最好的研究未必需要全新的技术,而是能够深化或转变人们对某个领域的理解和看法 [21] - 尽管存在如变长生成等尚未解决的挑战,但这恰恰意味着扩散语言模型领域仍有巨大的探索空间和机会 [21]
人民大学提出的扩散语言模型,可能要改写历史...
自动驾驶之心·2025-12-12 11:02