Workflow
扩散语言模型
icon
搜索文档
阿里巴巴发布最强语言模型挑战者:扩散模型能否颠覆ChatGP
搜狐财经· 2025-08-20 10:41
技术原理 - 扩散语言模型采用非自回归生成方式,通过加噪和去噪两阶段处理文本,类似画家先勾勒轮廓再添加细节[2][3] - 该模型具备高度并行性,可同时处理多个位置词汇,相比传统逐词生成模型实现数倍速度提升[3] - 训练过程采用填空式策略,随机遮盖词汇让模型推断被遮盖内容,增强对双向关系的理解[4] 性能表现 - LLaDA-8B模型在多个标准测试中表现接近或超越同等规模LLaMA3-8B模型,显示性能已达传统模型水平[4] - Mercury系列模型实现每秒数千词汇生成速度,显著提升实时对话和大规模文本生成效率[7] - Gemini Diffusion模型在基准测试中展现与GPT-4相当的性能表现[7] 发展历程 - 技术演进从2021年D3PM模型起步,经历连续空间到离散空间的转化过程[3] - 早期Diffusion-LM将文字转换为连续数字表示进行处理,后期DiffusionBERT和LLaDA系列实现直接文字空间操作[4] - 训练策略创新性采用从自回归模型适应方法,可利用现有大型语言模型快速训练扩散模型[5] 应用领域 - 在代码生成任务中展现优势,能同时处理程序不同部分的复杂依赖关系[6] - 数学推理和文档摘要领域表现优秀,特别适合需要全局规划的结构化输出任务[6] - 多模态应用具有天然优势,MMaDA模型可同步处理文本理解、生成及图像生成任务[5] 技术挑战 - 面临并行生成诅咒问题,同时生成词汇时可能忽略依赖关系导致文本连贯性下降[6] - 基础设施支持不足,现有开发工具和部署平台主要针对自回归模型设计[6] - 长文本生成能力存在限制,处理超长文档时仍面临技术瓶颈[7] 发展方向 - 重点提升训练效率,解决当前扩散模型训练过程中的效率问题[7] - 开发更先进推理算法,进一步缩小与传统模型在生成质量上的差距[7] - 优化长文本处理能力,突破现有模型在长文档生成方面的限制[7]
华人团队终结Token危机:扩散模型数据潜力超自回归三倍
量子位· 2025-08-13 17:13
时令 发自 凹非寺 量子位 | 公众号 QbitAI Token危机真的要解除了吗? 最新研究发现,在token数量受限的情况下,扩散语言模型的数据潜力可达自回归模型的三倍多。 更令人惊讶的是,即使是在如此极端的重复下,模型都未出现性能饱和,这表明此模型甚至还可以从这1B数据中挖掘出更多有用信息。 论文一作Jinjie Ni在x上详细介绍了其团队的研究结论和方法。 不仅如此,一个参数规模为1B的扩散模型,用1B tokens进行480个周期的训练,就在HellaSwag和MMLU基准上分别取得56%和33%的准确 率,且未使用任何技巧或数据筛选。 扩散语言模型是超强的数据学习者 扩散语言模型之所以具备超强的数据学习能力,主要有两个原因: 1)扩散目标和双向注意力机制使其能够进行 双向建模 ,更充分地挖掘网络数据中的信息,,而这些数据并非完全因果关系。 简单来说,传统自回归语言模型只能从前向上下文预测,存在严格的因果限制,这限制了模型对语言和其他非因果数据(如代码、生物序列 等)中复杂模式的捕捉能力。 扩散语言模型通过支持双向建模,打破了这种因果限制,更全面地利用数据,从而提升了学习效果。 2)其 计算密度极高 ...
扩散语言模型真的会比自回归好?理论分析结果可能恰恰相反
机器之心· 2025-06-10 16:41
扩散语言模型与自回归模型对比研究 - 扩散语言模型(MDMs)在理论上具备并行生成多个词元的潜力,可能提升文本生成效率 [1][3] - 实际测试显示MDMs在数学推理基准GSM8K上需要更多采样步骤才能达到与自回归模型Qwen2.5-7B相当的准确率,导致更高推理成本 [3][6] - 消除训练数据差异后,扩散模型仍未展现出相对于自回归模型的效率优势 [4] 评估指标对模型表现的影响 - 词元错误率(TER)衡量文本流畅度时,MDMs可在恒定采样步数内达到理想困惑度,不受序列长度影响 [10][11] - 序列错误率(SER)评估逻辑正确性时,MDMs所需采样步数与序列长度线性相关,失去效率优势 [11] - 在GSM8K数学推理任务中,SER指标导致MDMs表现不佳,因其需要完全正确的思维链 [11][12] 适用场景分析 - 当任务优先考虑文本流畅性和高吞吐量(如创意写作)时,MDMs更具效率优势 [15] - 当任务要求序列级准确性(如数学推理、代码生成)时,自回归模型仍是更好选择 [15] - 研究证实扩散模型优势不能简单平移至语言领域,需根据具体任务需求选择模型类型 [16]