Workflow
扩散语言模型
icon
搜索文档
小众架构赢麻了,通过编辑功能让100B扩散模型飙出892 tokens/秒的速度
36氪· 2026-02-11 13:21
模型发布与定位 - 蚂蚁集团技术研究院开源了其最新扩散语言模型LLaDA2.1,标志着该系列从研究模型向实用产品的关键转变 [1][2][5] - 该模型在100B参数规模上实现了前所未有的速度,在复杂编程任务中飙出892 tokens/秒的峰值速度,对主流自回归架构形成显著优势 [1][18][20] - 公司还开源了16B的Mini版本,其在部分任务上的峰值速度超过1500 tokens/秒,为轻量化部署提供了可能 [24] 核心技术突破:架构与速度 - 模型采用扩散架构而非主流自回归架构,其并行生成特性理论上拥有巨大的速度潜力 [3] - 核心创新是“可纠错编辑”机制,将推理分为“草稿生成”和“编辑修正”两个阶段,允许模型自我修正,从根本上解决了扩散模型的曝光偏差和全局一致性问题 [8][9][12][13] - 通过“单模型双模式”设计,用户可灵活切换“极速模式”与“质量模式”,在单个模型内实现了速度与质量的解耦,这是首次在扩散架构上实现该特性 [3][4][5][13] 性能表现 - **速度**:在HumanEval+编程基准上,LLaDA2.1-flash(100B)在极速模式下峰值速度达到892 TPS;其Mini版本在多项任务上TPS超过1500 [5][7][24] - **质量**:在涵盖知识、推理、代码、数学及指令遵循的33个权威基准测试中,LLaDA2.1在质量模式下全面超越了前代LLaDA2.0 [22] - **效率平衡**:即使在追求速度的极速模式下,其性能下降也微乎其微,做到了速度与质量兼得 [21][23] 训练方法创新 - 团队成功在100B规模扩散模型上实施了强化学习训练,此为业界首次 [14][16] - 定制了EBPO算法以克服扩散模型序列级似然难以计算的问题,使模型在指令遵循等对齐类任务上表现显著提升 [16][19] 行业意义与哲学 - 该模型的成功证明,在大模型时代,坚持非主流的技术路线(扩散模型)并走到底,同样可以取得突破性胜利 [26] - 其设计哲学是让模型像人类一样“写作+修改”,通过并行生成草稿再全局编辑,定义了新的推理范式 [8][13]
里程碑时刻,100B扩散语言模型跑出892 Tokens /秒,AI的另一条路走通了
36氪· 2026-02-11 12:31
模型发布与核心突破 - 扩散语言模型(dLLM)赛道迎来质变,LLaDA2.1在HuggingFace上线,包含16B参数的Mini版和100B参数的Flash版 [1] - LLaDA2.1实现了扩散语言模型的“成人礼”,其峰值速度达到892 Tokens/秒,首次将理论效率优势变为现实,并具备边生成边纠错的机制 [3] - 模型采用“起草-编辑”的并行生成范式,打破了自回归模型“下笔无悔”、误差累积的困境,为规模化应用提供了新路径 [3] 技术架构与创新机制 - 提出可纠错编辑机制,模型能在毫秒级采样中起草答案,随后进行检查和修正,解决了并行解码中局部不一致性的问题 [13] - 引入单模型双模式设计,用户可通过一条配置在质量模式和极速模式间切换,解决了以往多版本管理复杂和精度掉点严重的问题 [15] - 在百亿参数规模上首次成功应用强化学习后训练,采用基于ELBO的块级策略优化方法,提升了模型对指令的理解和意图对齐能力 [16][17] 性能表现与基准测试 - 在复杂编程基准HumanEval+上,100B参数的LLaDA2.1-Flash实现了891.74 TPS的峰值速度,16B参数的Mini版峰值TPS高达1586.93 [22] - 在质量模式下,LLaDA2.1在Mini与Flash两个规模上全面超越前代LLaDA2.0的表现 [20] - 在速度模式下,模型牺牲极少的输出质量,实现了显著的推理速度优势,尤其在代码类任务中吞吐率最高 [24] 行业影响与范式意义 - LLaDA2.1证明了扩散语言模型在百亿参数规模上的可行性,突破了该路线长期存在的规模天花板 [11] - 该模型通过系统性创新,解决了扩散模型在速度与生成质量之间的核心矛盾,使其跨过了从“能跑”到“能用”的门槛 [9] - 此次突破打破了自回归架构在大语言模型领域的路径单一性,表明在主流之外存在另一条可持续推进且具备效率优势的技术方向 [26]
里程碑时刻!100B扩散语言模型跑出892 Tokens /秒,AI的另一条路走通了
机器之心· 2026-02-11 09:59
文章核心观点 - 扩散语言模型(dLLM)这一曾被视为小众的研究方向,通过LLaDA2.1的发布实现了质变,标志着该技术路线已从理论走向真正可用,甚至在效率上展现出超越主流自回归模型的潜力 [2][4] - LLaDA2.1通过引入可纠错编辑机制、单模型双模式设计以及强化学习后训练等系统性创新,有效解决了扩散模型长期存在的“速度-质量”矛盾,在百亿参数规模下实现了前所未有的推理速度 [4][11][13] - 该模型的成功可能预示着AI大模型底层架构的范式多样性正在增加,为自回归模型之外提供了另一条可行且高效的技术发展路径 [33] 模型发布与规模突破 - LLaDA2.1于本周一在HuggingFace上线,包含LLaDA2.1-Mini(16B参数)和LLaDA2.1-Flash(100B参数)两个版本,距离上一版本发布仅两个月 [2] - 其100B参数规模本身,突破了扩散语言模型长期存在的规模天花板,此前该路线模型规模普遍停留在几十亿到三百亿参数以内 [14] 技术原理与核心创新 - **可纠错编辑机制**:模型采用“起草-编辑”的两步范式,首先生成草稿,随后进行全局评估和自我修正,解决了并行解码中错误无法回溯的问题 [16][19] - **单模型双模式**:一个模型支持“极速模式”和“质量模式”,用户仅需一条配置即可切换,避免了维护多个版本带来的管理和精度损失问题 [20] - **强化学习应用**:团队首次将基于ELBO的块级策略优化方法应用于百亿参数级扩散模型,以提升模型对指令的理解和意图对齐能力 [21][22] 性能表现与效率数据 - **峰值速度**:LLaDA2.1-Flash在处理复杂编程任务时,实现了**892 Tokens/秒**的峰值速度 [4][13] - **量化后速度**:在HumanEval+基准测试中,量化后的LLaDA2.1-Flash峰值速度达**891.74 TPS**,LLaDA2.1-Mini峰值速度高达**1586.93 TPS** [28] - **综合性能**:在“质量模式”下,LLaDA2.1在mini与flash两个规模上均全面超越了LLaDA2.0的表现 [24] - **效率优势**:在“极速模式”下,模型在仅牺牲极少输出质量的前提下,实现了显著更快的推理速度 [30] 行业意义与潜在影响 - LLaDA2.1的成功证明扩散语言模型并非只能停留在实验室阶段,其并行生成、边写边改的特性为解决自回归模型推理速度慢、错误累积等问题提供了新思路 [4][33] - 行业可能不会立即发生范式的彻底更替,但技术路径的单一性正在被打破,在自回归之外存在另一条可持续推进且值得投入的方向 [33]
小众架构赢麻了!通过编辑功能让100B扩散模型飙出892 tokens/秒的速度!
量子位· 2026-02-11 09:55
模型架构与性能突破 - 蚂蚁集团开源了基于扩散架构的语言模型LLaDA2.1,在100B参数规模上实现了高达892 tokens/秒的生成速度,显著超越了主流自回归模型几十token/秒的速度水平 [1][3] - 该模型在HumanEval+编程基准测试中,LLaDA2.1-flash(100B)在极速模式下峰值速度达到892 TPS,其16B的Mini版本在部分任务上的峰值速度甚至超过1500 tokens/秒 [11][33] - 模型在涵盖知识、推理、代码、数学及指令遵循的33个权威基准测试中,质量模式下的性能全面超越了前代LLaDA2.0,实现了速度与质量兼得 [31][32] 核心技术:可纠错编辑与双模式解码 - LLaDA2.1引入了可纠错编辑机制,将推理过程分为两个阶段:极速并行生成草稿,然后立即启动编辑模式进行全局检查和回溯式修正,解决了扩散模型缺乏全局一致性的问题 [16][17][21] - 模型采用单模型双模式设计,用户可通过一条配置切换模式:极速模式通过激进并行生成和后期编辑保障吞吐量;质量模式采用保守阈值优先保障输出准确性 [8][10][13] - 这种设计首次在扩散架构上实现了速度与质量的解耦,标志着该系列从研究模型向实用产品的关键转变 [4][22] 训练创新:强化学习的应用 - 团队首次在100B规模的扩散语言模型上成功实施了大规模强化学习训练,定制了EBPO算法 [23][26] - 该算法以证据下界作为序列似然的代理目标,通过向量化似然估计技术并行计算多时间步的块条件概率,并设计了专门的梯度稳定机制 [25][28] - 应用强化学习后,LLaDA2.1在IFEval(指令遵循评估)、BFCL(函数调用)等对齐类任务上表现显著提升 [26] 行业意义与影响 - 在自回归模型主导的行业背景下,LLaDA2.1证明了扩散架构这条“非共识”技术路线的巨大潜力,尤其是在生成速度方面具有显著优势 [1][5][29] - 该模型的成功表明,在大模型时代,坚持并深化非主流技术路线同样可以取得突破性进展 [34] - 模型的开源为行业提供了在复杂编程、快速推理等对吞吐量敏感场景下的高效新工具选择 [4][35]
Stable-DiffCoder超越自回归模型!扩散模型在代码生成取得新突破
机器之心· 2026-02-06 07:45
文章核心观点 - 华中科技大学与字节跳动联合推出的Stable-DiffCoder,证明了扩散训练范式本身是一种强大的数据增强和表征学习手段,能够有效提升代码大模型的能力上限,并在多项基准测试中超越了同规模的自回归模型[1] - 该研究打破了“扩散模型只能做并行加速”的刻板印象,提出了一种新的模型演进路径:将自回归模型作为高效的知识压缩器,再利用扩散训练作为“强化剂”,进一步提升模型性能[31] 模型性能表现 - 在Base模型评测中,Stable-DiffCoder-8B-Base在HumanEval上得分为79.3,在HumanEval+上得分为73.8,在MBPP上得分为83.6,在MBPP+上得分为67.7,超越了包括Qwen2.5-Coder-7B、DeepSeek-Coder-6.7B-Base在内的多个8B规模开源模型[23] - 在代码推理任务CRUXEval上,Stable-DiffCoder-8B-Base在Input-CoT和Output-CoT上分别取得53.8和60.0的分数,表现优于多数同规模模型[24] - 在Instruct模型评测中,Stable-DiffCoder-8B-Instruct在HumanEval上得分为86.6,在HumanEval+上得分为82.3,在MBPP上得分为85.7,在MBPP+上得分为72.8,超越了其自回归原型Seed-Coder-8B-Instruct及其他8B规模的DLLM模型[26] - 在多语言代码生成任务(涵盖Python、Java、C++等13种语言)上,Stable-DiffCoder-8B-Instruct平均得分为75.3,与Seed-Coder-8B-Instruct持平,并显著超越其他同规模模型[27] - 在更具挑战性的代码基准测试中,Stable-DiffCoder-8B-Instruct在MHPP上达到42.4 pass@1,在BigCodeBench Full和Hard上分别达到54.8和31.8,在LiveCodeBench上达到23.5 pass@1,表现优异[27] - 在代码编辑任务CanItEdit上,Stable-DiffCoder-8B-Instruct取得了60.0 pass@1的分数,显著优于其他同规模模型,展现了惊艳的代码编辑能力[29] 技术创新与方法 - 研究揭示了纯双向扩散过程在高效学习样本知识上的缺陷:当掩码比例较大时,模型难以映射到清晰的规则,且会引入噪声和错误知识[4][5][11] - 通过实验证明,采用“自回归预训练 -> 扩散持续预训练”的课程学习方案(AR->BiDLLM)效果最佳,优于纯双向扩散训练,说明自回归结构更适合作为知识压缩的先验[11][13][14][15] - 最终训练流程设计为:先用自回归方式压缩知识,再用其检查点通过持续预训练转换为小块的块扩散模型,以探索扩散过程的数据增强能力[16] - 团队设计了一种稳定的持续预训练预热策略,通过逐步增加掩码比例上限和移除损失函数中的加权系数,解决了训练不稳定的问题[18][20] - 针对块扩散,团队设计了块级截断的噪声调度,通过设置噪声采样下界为1/B(B为块大小),确保每个块都能产生有效的损失信号,避免了小块时信号丢失的问题[21][22] 行业影响与意义 - 该研究证明了扩散训练范式在代码理解和生成质量上可以超越传统的自回归模型,为大型语言模型的演进提示了一条新路径[1][31] - 模型在预训练数据较少的稀疏代码语言(如C、PHP)上,相比自回归基线获得了大幅增强,验证了扩散训练过程起到了数据增强的效果[24] - Stable-DiffCoder-8B-Instruct在多项综合评测中表现优越,在闭源测试集MHPP上达到了Qwen2.5-Coder-32B-Instruct的水平,在BigCodeBench上仅次于DeepSeek-Coder-V2-Instruct (21B/236B)[25][27]
姚班传奇陈立杰入职OpenAI!16岁保送清华,30岁拿下UC伯克利助理教授
创业邦· 2026-01-15 18:15
核心人事动态 - 姚班天才、UC伯克利EECS助理教授陈立杰已加盟OpenAI,负责数学推理方向 [3] - OpenAI在2023年9月发表的出圈论文《Why Language Models Hallucinate》中,引用了陈立杰参与的另一篇关于大模型幻觉的研究 [3] - 陈立杰近期研究方向聚焦于扩散语言模型,紧跟生成模型的重要演进路线 [6] 个人背景与学术成就 - 陈立杰出生于1995年,16岁获全国信息学奥赛金牌,保送清华大学姚班 [11] - 本科期间在AAAI、AAMAS、COLT、CCC等重要会议发表多篇论文,并系统投入计算复杂性理论研究 [14] - 2017年,在计算机科学基础年度研讨会发表论文,成为首位在FOCS上发表论文的中国本科生 [15] - 2022年从MIT获得博士学位,随后加入UC Berkeley Miller研究所担任米勒博士后研究员 [15] - 2025年正式入职加州大学伯克利分校EECS系,担任助理教授 [11][16] 主要研究方向与贡献 - 主要研究方向包括P与NP、电路复杂性、细粒度复杂性、去随机化、算法下界等理论计算机科学核心问题 [19] - 在去随机化与复杂性下界之间的联系、复杂性难度放大等方向做出了系统性贡献 [19] - 开始将复杂性理论的方法引入量子物理与AI安全等前沿领域 [19] - 2024年,其一篇名为《复杂性下界的逆向数学》的论文给困扰学界近50年的一类计算复杂性难题带来新思路 [15]
姚班传奇陈立杰入职OpenAI!16岁保送清华,30岁拿下UC伯克利助理教授
量子位· 2026-01-15 09:23
核心人事动态 - OpenAI已确认聘请清华大学姚班校友、加州大学伯克利分校EECS助理教授陈立杰加盟,负责数学推理方向 [1][2] - 陈立杰近期研究方向聚焦于扩散语言模型,紧跟生成模型的重要演进路线 [7] - OpenAI在去年9月发表的出圈论文《Why Language Models Hallucinate》中,引用了陈立杰参与的另一篇关于大模型幻觉的研究 [4] 个人背景与学术成就 - 陈立杰出生于1995年,16岁时获得全国信息学奥赛金牌并被保送清华大学,是清华大学“姚班”知名校友 [10] - 其竞赛生涯成绩斐然,曾多次在全国信息学联赛、冬令营及中国队选拔赛中获全场第一名 [12] - 本科期间即在AAAI、AAMAS、COLT、CCC等重要计算机会议上发表多篇论文,并开始系统性研究计算复杂性理论 [15] - 大三下学期赴MIT交流,师从著名学者Scott Aaronson研究量子复杂性,并解决了量子信息领域一个自2002年提出的开放性问题 [16][19] - 2017年,作为中国首位本科生在计算机科学基础年度研讨会发表论文,解决了计算复杂性领域的重要问题 [20] - 同年从清华姚班毕业,赴MIT攻读博士学位,师从Ryan Williams,研究方向集中于计算复杂性理论与细粒度复杂度理论 [21][22] - 博士期间多次在FOCS、STOC等顶级理论计算机会议发表论文,并获得2019年STOC和FOCS最佳学生论文奖等重要学术荣誉 [23][24] - 2022年从MIT获得博士学位,随后加入UC Berkeley Miller研究所担任米勒博士后研究员,该职位每年仅授予少数杰出青年学者 [23] - 2024年,其一篇关于《复杂性下界的逆向数学》的论文为困扰学界近50年的一类计算复杂性难题带来新思路 [23] - 2025年,正式加入加州大学伯克利分校EECS系担任助理教授,并成为伯克利理论计算机科学团队成员,主讲研究生课程《Computational Complexity Theory》 [10][26] 研究方向与兴趣 - 主要研究方向包括P与NP、电路复杂性、细粒度复杂性、去随机化、算法下界等理论计算机科学核心问题 [27] - 在去随机化与复杂性下界之间的联系、复杂性难度放大等方向做出了系统性贡献 [28] - 研究兴趣广泛,致力于将理论计算机科学的思想应用于量子物理和AI安全等其他科学领域 [9][29] - 其个人研究主页显示,他关注如何应用理论计算机科学的思想为AI系统建立安全保证 [9]
Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起
机器之心· 2026-01-14 15:18
文章核心观点 - 行业认为Transformer架构在未来至少一至几年内仍将是AI生态系统的基石,但竞争焦点正从单纯追求模型规模转向效率优化和混合架构[4][5] - 扩散语言模型因其并行生成特性和在数据稀缺条件下的学习优势,成为2026年值得关注的新兴变量,但其在工具调用方面的缺陷限制了其作为智能体的应用[11][12][19] 效率战争:混合架构与线性注意力的崛起 - 行业近期重点转向混合架构与效率提升,例如DeepSeek V3采用混合专家模型和多头潜在注意力,在拥有6710亿参数的情况下,每次推理仅激活370亿参数,显著降低了推理成本[7] - 多家公司推出效率导向的模型变体,如Qwen3-Next、Kimi Linear、Nvidia Nemotron 3以及采用稀疏注意力的DeepSeek V3.2[7] - 标准Transformer注意力机制具有O(N²)的计算复杂度,导致长上下文处理成本剧增,因此行业正积极研发线性注意力或稀疏注意力等方案以降低计算开销[9] - 2026年的竞争核心在于如何在更长的上下文和更低的延迟下,提供同等的模型性能[10] - 部分模型采用混合策略,例如将高效的线性层与全注意力层以一定比例混合,以平衡长距离依赖捕捉能力和推理速度[14] 扩散语言模型:速度与代价的博弈 - 扩散语言模型采用并行生成方式,能够以相对快速且低廉的成本生成Token,其生成过程被类比为从噪声中并行“冲洗”出整段文字[12] - 行业预测Google可能在2026年推出Gemini Diffusion,作为其更便宜的Flash模型的替代品,并强调其生成速度“明显快于我们目前最快的模型”[12] - 扩散模型并行生成的特性导致其无法在响应链中原生地整合工具调用,这使其在作为智能体应用时面临巨大挑战[13][15] - 研究表明,若为了匹配自回归模型的性能而增加扩散模型的去噪步数,其最终计算成本可能与自回归模型相差无几[17] 数据枯竭时代的「超级学习者」 - 在互联网高质量文本数据接近枯竭的背景下,扩散语言模型可能成为更好的数据学习者[18][24] - 研究论文《Diffusion Language Models are Super Data Learners》指出,当进行多轮次训练时,文本扩散模型的表现可能优于标准的自回归大语言模型[19][25] - 在数据量受限的情况下,扩散语言模型通过增加训练轮数,其表现持续超越自回归模型,例如一个10亿参数的扩散语言模型,仅通过反复训练10亿个Token,就在HellaSwag和MMLU基准测试上分别达到了超过56%和超过33%的准确率[26][27] - 对于扩散语言模型,验证集损失的上升并不一定意味着下游任务能力的下降,即使看似“过拟合”,其在代码生成、推理等任务上的表现可能仍在提升[28] - 扩散模型具备任意顺序建模、超高密度计算以及内置的蒙特卡洛增强等特性,使其能从有限数据中进行更高效的学习[31]
微信炼出扩散语言模型,实现vLLM部署AR模型3倍加速,低熵场景超10倍
机器之心· 2026-01-03 12:13
模型核心突破 - 腾讯微信AI团队提出WeDLM,首次在工业级推理引擎优化条件下,使扩散语言模型的推理速度超越同等自回归模型[2][4] - 核心创新在于通过标准因果注意力实现扩散解码,解决了传统扩散模型因双向注意力与KV缓存不兼容导致的速度瓶颈[4][10] - 在数学推理等任务上,相比vLLM部署的自回归模型实现3倍以上加速,在低熵场景下加速比可达10倍以上,同时保持甚至提升生成质量[2][27] 技术原理与设计 - 提出“前缀可缓存性”关键指标,指出并行生成的价值取决于token转化为可缓存前缀的速度,这是影响推理效率的核心[11][31] - 采用拓扑重排序技术,将已观测token移至序列前端并保留逻辑位置,使标准因果注意力下每个待预测位置都能访问完整上下文[16] - 设计双流掩码训练策略,构建干净的“记忆流”和带掩码的“预测流”,以缩小训练与推理的分布差异[18] - 推理时采用流式并行解码,结合距离惩罚、即时缓存和动态滑动窗口机制,最大化前缀提交率,避免块边界等待开销[21][23][32] 性能表现:生成质量 - 基础模型评测中,WeDLM-8B平均得分74.72,超越基准模型Qwen3-8B的72.61分达2.1个点[24] - 在数学推理任务上提升显著:GSM8K得分90.20,提升4.2个点;MATH得分53.60,提升2.8个点[24] - 指令微调模型评测中,WeDLM-8B-Instruct平均得分77.53,超越Qwen3-8B-Instruct的75.12分达2.4个点,并领先于其他扩散模型[25] 性能表现:推理速度 - 所有速度对比均基于vLLM部署的自回归模型基线,确保公平[26] - 在不同熵值场景下速度差异显著:低熵场景实测达到1673.3 tokens/s,中熵场景为745.2 tokens/s,高熵场景为197.8 tokens/s[27][31] - 具体任务加速比:数学推理为3-6倍,代码生成为2-3倍,序列计数等低熵任务可达10倍以上,开放式问答为1.5-2倍[27] 模型训练与部署 - 模型基于Qwen2.5-7B和Qwen3-8B进行训练,使用了100B token进行继续预训练和10B token进行监督微调[22] - 该因果扩散框架天然兼容现有推理基础设施,如KV缓存、FlashAttention、PagedAttention和CUDA Graphs等[32] - 模型权重和代码已开源,可通过GitHub和Hugging Face获取,安装与调用方式简便[14][29]
跳过“逐字生成”,蚂蚁集团赵俊博:扩散模型让我们能直接修改Token
36氪· 2025-12-12 15:17
扩散语言模型架构的技术特点与优势 - 扩散架构在推理过程中可以直接修改和控制token,无需像自回归模型那样重新生成整段内容[1] - 相比自回归模型,扩散模型理论上有望实现更快的生成速度和更低的计算成本[1] - 扩散语言模型的解码机制是“做完形填空”,即遮盖部分词后再恢复,而非自回归的“接龙”式预测[6] 扩散语言模型的性能与数据特性 - 在相同的计算量和性能目标下,扩散语言模型所需的参数规模可以比自回归模型更小[5] - 在计算受限情况下,扩散语言模型相比自回归模型更为“data-hungry”,对数据需求更大、吸收数据更快[5][8] - 与图像扩散模型类似,扩散语言模型在同样数据集和架构下可以持续训练,效果可能持续提升,而自回归模型训练多个epoch后效果常不再变动[9][10] LLaDA系列模型的发展与开源成果 - 团队近期发布并开源了LLaDA 2.0,率先将扩散语言模型做到千亿体量[1][20] - LLaDA 1.0的8B版本是第一个大规模训练到80亿参数的扩散语言模型,效果可对标LLaMA-3-8B,在Hugging Face上零推广即获得二十几万下载[19] - 团队于今年9月发布了LLaDA-MoE,总参数7B(激活参数1B),是全球第一个原生训练出来的MoE架构扩散语言模型[19] - 团队开源了一套支持5D并行集成的训练框架和推理框架,是第一个面向扩散语言模型的训练框架,已支持监督微调与直接偏好优化[16] 扩散语言模型的应用表现与潜力 - 扩散语言模型在“调用”和“写代码”这两个任务上比自回归模型有明显优势[23] - 得益于并行解码,模型一次能同时吐出几个token,在代码补全等场景中体验类似按Tab自动补全[23] - 在文学创作中,模型解码过程呈现“非共识”轨迹,例如先定下开头结尾框架,再反复修改润色中间内容,这在主流原生应用中尚未见到[23] - 通过新的模型架构与范式,若能将关键场景的每秒事务处理量推上千量级,实现五倍乃至更高的速度提升,其体验将是革命性的[25] 行业生态与发展阶段 - 扩散语言模型领域发展势头迅猛,已吸引包括谷歌、字节在内的巨头及一批初创公司积极布局[1] - 谷歌有Gemini Diffusion,美国有创业公司在做Mercury系列,字节也在进行相关研究[19] - 扩散语言模型的训练与推理生态仍处于早期发展阶段,自回归模型从ChatGPT出来已发展三年,而扩散语言模型的训推生态才刚起步[27] - 团队计划在未来一两个月联合ZenMux(一站式模型接入平台)放出部分API[23]