Workflow
自回归模型
icon
搜索文档
小众架构赢麻了,通过编辑功能让100B扩散模型飙出892 tokens/秒的速度
36氪· 2026-02-11 13:21
模型发布与定位 - 蚂蚁集团技术研究院开源了其最新扩散语言模型LLaDA2.1,标志着该系列从研究模型向实用产品的关键转变 [1][2][5] - 该模型在100B参数规模上实现了前所未有的速度,在复杂编程任务中飙出892 tokens/秒的峰值速度,对主流自回归架构形成显著优势 [1][18][20] - 公司还开源了16B的Mini版本,其在部分任务上的峰值速度超过1500 tokens/秒,为轻量化部署提供了可能 [24] 核心技术突破:架构与速度 - 模型采用扩散架构而非主流自回归架构,其并行生成特性理论上拥有巨大的速度潜力 [3] - 核心创新是“可纠错编辑”机制,将推理分为“草稿生成”和“编辑修正”两个阶段,允许模型自我修正,从根本上解决了扩散模型的曝光偏差和全局一致性问题 [8][9][12][13] - 通过“单模型双模式”设计,用户可灵活切换“极速模式”与“质量模式”,在单个模型内实现了速度与质量的解耦,这是首次在扩散架构上实现该特性 [3][4][5][13] 性能表现 - **速度**:在HumanEval+编程基准上,LLaDA2.1-flash(100B)在极速模式下峰值速度达到892 TPS;其Mini版本在多项任务上TPS超过1500 [5][7][24] - **质量**:在涵盖知识、推理、代码、数学及指令遵循的33个权威基准测试中,LLaDA2.1在质量模式下全面超越了前代LLaDA2.0 [22] - **效率平衡**:即使在追求速度的极速模式下,其性能下降也微乎其微,做到了速度与质量兼得 [21][23] 训练方法创新 - 团队成功在100B规模扩散模型上实施了强化学习训练,此为业界首次 [14][16] - 定制了EBPO算法以克服扩散模型序列级似然难以计算的问题,使模型在指令遵循等对齐类任务上表现显著提升 [16][19] 行业意义与哲学 - 该模型的成功证明,在大模型时代,坚持非主流的技术路线(扩散模型)并走到底,同样可以取得突破性胜利 [26] - 其设计哲学是让模型像人类一样“写作+修改”,通过并行生成草稿再全局编辑,定义了新的推理范式 [8][13]
里程碑时刻,100B扩散语言模型跑出892 Tokens /秒,AI的另一条路走通了
36氪· 2026-02-11 12:31
模型发布与核心突破 - 扩散语言模型(dLLM)赛道迎来质变,LLaDA2.1在HuggingFace上线,包含16B参数的Mini版和100B参数的Flash版 [1] - LLaDA2.1实现了扩散语言模型的“成人礼”,其峰值速度达到892 Tokens/秒,首次将理论效率优势变为现实,并具备边生成边纠错的机制 [3] - 模型采用“起草-编辑”的并行生成范式,打破了自回归模型“下笔无悔”、误差累积的困境,为规模化应用提供了新路径 [3] 技术架构与创新机制 - 提出可纠错编辑机制,模型能在毫秒级采样中起草答案,随后进行检查和修正,解决了并行解码中局部不一致性的问题 [13] - 引入单模型双模式设计,用户可通过一条配置在质量模式和极速模式间切换,解决了以往多版本管理复杂和精度掉点严重的问题 [15] - 在百亿参数规模上首次成功应用强化学习后训练,采用基于ELBO的块级策略优化方法,提升了模型对指令的理解和意图对齐能力 [16][17] 性能表现与基准测试 - 在复杂编程基准HumanEval+上,100B参数的LLaDA2.1-Flash实现了891.74 TPS的峰值速度,16B参数的Mini版峰值TPS高达1586.93 [22] - 在质量模式下,LLaDA2.1在Mini与Flash两个规模上全面超越前代LLaDA2.0的表现 [20] - 在速度模式下,模型牺牲极少的输出质量,实现了显著的推理速度优势,尤其在代码类任务中吞吐率最高 [24] 行业影响与范式意义 - LLaDA2.1证明了扩散语言模型在百亿参数规模上的可行性,突破了该路线长期存在的规模天花板 [11] - 该模型通过系统性创新,解决了扩散模型在速度与生成质量之间的核心矛盾,使其跨过了从“能跑”到“能用”的门槛 [9] - 此次突破打破了自回归架构在大语言模型领域的路径单一性,表明在主流之外存在另一条可持续推进且具备效率优势的技术方向 [26]
小众架构赢麻了!通过编辑功能让100B扩散模型飙出892 tokens/秒的速度!
量子位· 2026-02-11 09:55
模型架构与性能突破 - 蚂蚁集团开源了基于扩散架构的语言模型LLaDA2.1,在100B参数规模上实现了高达892 tokens/秒的生成速度,显著超越了主流自回归模型几十token/秒的速度水平 [1][3] - 该模型在HumanEval+编程基准测试中,LLaDA2.1-flash(100B)在极速模式下峰值速度达到892 TPS,其16B的Mini版本在部分任务上的峰值速度甚至超过1500 tokens/秒 [11][33] - 模型在涵盖知识、推理、代码、数学及指令遵循的33个权威基准测试中,质量模式下的性能全面超越了前代LLaDA2.0,实现了速度与质量兼得 [31][32] 核心技术:可纠错编辑与双模式解码 - LLaDA2.1引入了可纠错编辑机制,将推理过程分为两个阶段:极速并行生成草稿,然后立即启动编辑模式进行全局检查和回溯式修正,解决了扩散模型缺乏全局一致性的问题 [16][17][21] - 模型采用单模型双模式设计,用户可通过一条配置切换模式:极速模式通过激进并行生成和后期编辑保障吞吐量;质量模式采用保守阈值优先保障输出准确性 [8][10][13] - 这种设计首次在扩散架构上实现了速度与质量的解耦,标志着该系列从研究模型向实用产品的关键转变 [4][22] 训练创新:强化学习的应用 - 团队首次在100B规模的扩散语言模型上成功实施了大规模强化学习训练,定制了EBPO算法 [23][26] - 该算法以证据下界作为序列似然的代理目标,通过向量化似然估计技术并行计算多时间步的块条件概率,并设计了专门的梯度稳定机制 [25][28] - 应用强化学习后,LLaDA2.1在IFEval(指令遵循评估)、BFCL(函数调用)等对齐类任务上表现显著提升 [26] 行业意义与影响 - 在自回归模型主导的行业背景下,LLaDA2.1证明了扩散架构这条“非共识”技术路线的巨大潜力,尤其是在生成速度方面具有显著优势 [1][5][29] - 该模型的成功表明,在大模型时代,坚持并深化非主流技术路线同样可以取得突破性进展 [34] - 模型的开源为行业提供了在复杂编程、快速推理等对吞吐量敏感场景下的高效新工具选择 [4][35]
懂了很多道理,AI 依然要发疯
36氪· 2026-02-09 14:50
文章核心观点 - Anthropic的研究论文《The Hot Mess of AI》揭示了当前以Transformer为基础的自回归大模型在追求AGI(通用人工智能)过程中存在一个根本性缺陷:随着模型规模增大和任务链条变长,模型错误的主要来源从“偏差”(系统性错误)转向了“方差”(随机性错误),导致其行为不可预测且混乱,这被称为“不连贯性”问题[1][7][19][30] - 该问题被归结为自回归模型作为“动力系统”的本质与执行长程任务所需的“优化器”行为之间存在根本冲突,现有技术路径难以根除这种内在的混乱,对当前依赖扩大模型规模的Scaling Law路线构成了直接冲击[20][23][24][40] - 尽管前景严峻,但研究也指出了潜在的缓解路径,包括集成方法、系统2推理以及超越Token的新范式,为行业未来的研发方向提供了线索[33][36][37] 当前AI Agent的困境与核心问题 - 应用层AI Agent在处理真实世界长程任务时不可靠,严重依赖“Skill”等人为辅助[1] - 困境主要源于两个原因:一是模型无法吃透复杂上下文(“上下文的黑洞”),二是随着规划步长增加,模型表现急剧恶化(“长期规划的崩塌”)[1] - 自回归模型(如Transformer)存在“阿喀琉斯之踵”,其核心问题在于长程任务中的错误性质发生了改变[1][7] 研究发现的实证证据:能力与混乱并存 - 研究通过“偏差-方差分解”量化模型错误来源,引入核心指标“不连贯性”,即总错误中由“方差”导致的比例,用以区分模型是因“笨”(高偏差)还是因“疯”(高方差)而犯错[8][9][13] - 实验发现,任务越长,AI越“疯”:在GPQA(科学问答)和SWE-bench(编程)任务中,随着推理链或行动步骤增加,不连贯性直线上升,错误来源从偏差主导变为方差主导[13][14] - 模型规模越大,在最困难任务上的不连贯性反而上升:例如Qwen3模型家族,在简单任务上规模越大越稳定,但在最难任务组中,随着参数量增加,偏差下降快(更聪明),但方差下降慢(更混乱),导致错误更多由随机选择引起[15][17] - 研究发现,推理长度增加带来的混乱(熵增),需要模型规模扩大好几个数量级才能抵消,导致Scaling Law在此失效,单纯扩大模型规模性价比极低且无法消除内在随机性[17][19] 问题的根源:自回归架构的原罪 - 问题的本质是“动力系统”与“优化器”的冲突:自回归模型是一个可以发散、循环的动力系统,而执行目标导向任务的Agent需要是一个行为被目标严格锁定的优化器[20][23] - 数学上,在所有动力系统的集合中,能表现得像固定损失函数优化器的子集,其测度为零,这意味着让自回归模型干优化器的活儿可能性无限接近于零[23] - 即使专门为成为优化器而训练自回归模型,模型规模的扩大也只能提升认知准确性(降低偏差),而无法让行动更稳定(降低方差)[23] - 当模型规模变大时,其内部状态空间呈指数级膨胀,可能性增多,每一步预测的微小随机扰动在长链条推理中被不断放大,导致混乱[24] - 现有的后训练技术(如RLHF/思维链)虽然提升了准确率,但并未改变底层动力学特征,未能降低最困难任务上的不连贯性[27] - 方差具有累积性,长程任务中第一步的微小走神,经过多步推理放大后可能导致结果南辕北辙[29] 对行业未来发展的影响与预测 - 此问题是自回归架构的“内源性疾病”,无论投入多少数据和算力都难以根除,直接冲击了当前通往AGI的路线图[30] - 未来的AI失败图景可能更像“工业事故”而非有预谋的背叛:模型平时完美,一旦出错将是完全不可预测、不可复现的“发疯”,源于混乱而非恶意[30][31][32] - 这警示行业,AGI的终极挑战或许不在于让模型变得更聪明,而在于确保其在漫长的思考和行动中能始终保持连贯和清醒[40] 论文指出的潜在解决方案与研究方向 - **集成方法**:让模型对同一问题多次推理并集成结果,是降低不连贯性最有效的手段,方差随集成样本数量增加以1/样本数的速度下降,这解释了当前Coding Agent通过运行-测试-修正的ReAct循环实现稳定表现的原因[33][34] - **系统2推理**:增加推理预算(如进行大量思维链推导)能稍微降低不连贯性,对应了OpenAI o1的路线,但需注意模型自发长考时方差可能飙升,因此需要结构化的思维过程或更强的纠错模式[36] - **超越Token的新范式**:呼吁在更高抽象层级进行规划,例如基于高维概念或目标表征(如Meta提出的Large Concept Model或世界模型),而非基于容易出错的离散Token,以在长程任务中保持连贯[37][38][39] - **工程绕行方案**:通过沙箱环境让模型“发疯”,严格控制实际产生效果的输出,例如Anthropic在Claude Agent SDK中采用的方法[35]
Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起
机器之心· 2026-01-14 15:18
文章核心观点 - 行业认为Transformer架构在未来至少一至几年内仍将是AI生态系统的基石,但竞争焦点正从单纯追求模型规模转向效率优化和混合架构[4][5] - 扩散语言模型因其并行生成特性和在数据稀缺条件下的学习优势,成为2026年值得关注的新兴变量,但其在工具调用方面的缺陷限制了其作为智能体的应用[11][12][19] 效率战争:混合架构与线性注意力的崛起 - 行业近期重点转向混合架构与效率提升,例如DeepSeek V3采用混合专家模型和多头潜在注意力,在拥有6710亿参数的情况下,每次推理仅激活370亿参数,显著降低了推理成本[7] - 多家公司推出效率导向的模型变体,如Qwen3-Next、Kimi Linear、Nvidia Nemotron 3以及采用稀疏注意力的DeepSeek V3.2[7] - 标准Transformer注意力机制具有O(N²)的计算复杂度,导致长上下文处理成本剧增,因此行业正积极研发线性注意力或稀疏注意力等方案以降低计算开销[9] - 2026年的竞争核心在于如何在更长的上下文和更低的延迟下,提供同等的模型性能[10] - 部分模型采用混合策略,例如将高效的线性层与全注意力层以一定比例混合,以平衡长距离依赖捕捉能力和推理速度[14] 扩散语言模型:速度与代价的博弈 - 扩散语言模型采用并行生成方式,能够以相对快速且低廉的成本生成Token,其生成过程被类比为从噪声中并行“冲洗”出整段文字[12] - 行业预测Google可能在2026年推出Gemini Diffusion,作为其更便宜的Flash模型的替代品,并强调其生成速度“明显快于我们目前最快的模型”[12] - 扩散模型并行生成的特性导致其无法在响应链中原生地整合工具调用,这使其在作为智能体应用时面临巨大挑战[13][15] - 研究表明,若为了匹配自回归模型的性能而增加扩散模型的去噪步数,其最终计算成本可能与自回归模型相差无几[17] 数据枯竭时代的「超级学习者」 - 在互联网高质量文本数据接近枯竭的背景下,扩散语言模型可能成为更好的数据学习者[18][24] - 研究论文《Diffusion Language Models are Super Data Learners》指出,当进行多轮次训练时,文本扩散模型的表现可能优于标准的自回归大语言模型[19][25] - 在数据量受限的情况下,扩散语言模型通过增加训练轮数,其表现持续超越自回归模型,例如一个10亿参数的扩散语言模型,仅通过反复训练10亿个Token,就在HellaSwag和MMLU基准测试上分别达到了超过56%和超过33%的准确率[26][27] - 对于扩散语言模型,验证集损失的上升并不一定意味着下游任务能力的下降,即使看似“过拟合”,其在代码生成、推理等任务上的表现可能仍在提升[28] - 扩散模型具备任意顺序建模、超高密度计算以及内置的蒙特卡洛增强等特性,使其能从有限数据中进行更高效的学习[31]
小模型层数好玄学:12/32/64层效果好,16/24/48/层效果糟
量子位· 2026-01-11 12:02
研究背景与作者 - 研究由知名开源项目OpenEvolve的作者Asankhaya Sharma及其团队进行,该作者在AI/ML领域有显著成就,包括率先关注大语言模型的“推理时计算”并发表论文,以及开源了OptiLLM、OpenEvolve、Adaptive Classifier等知名项目 [7][8] 核心发现:模型“形状”比架构更重要 - 对于约70M参数的小模型,架构的重要性远低于普遍想象,相比之下,模型的“形状”(即深度与宽度的比例)更为关键 [1] - 在70M参数模型范围内,测试了包括LLaMA3、Qwen3、Gemma3在内的12种不同现代架构,发现它们的平均性能差异不到2%,表现惊人地相似 [26] - 现代架构的改进(如RMSNorm、RoPE、GQA)是为70亿以上参数的模型设计的,在70M参数规模下无法带来可衡量的优势 [27] - 这意味着对于小模型,精心调整的“深度-宽度配比”比选择具体的架构变体更重要 [27] 层数“玄学”与隐藏维度的关键作用 - 研究发现模型层数存在“玄学”:12层、32层、64层效果良好,而16层、24层、48层效果糟糕,其中最佳层数为32层 [2][15] - 效果“好”的层级(12L、32L、64L)平均得分约38%,效果“糟”的层级(16L、24L、48L)平均得分约32%,两个层级阵营之间的平均差距超过6个百分点 [15][16] - 这一现象背后的关键因素是“隐藏维度”,模型的隐藏维度必须大于或等于512,这是一个基础门槛 [3][18] - 当隐藏维度小于512时,模型性能会显著下降,除非其深度处于特定的“补偿”位置 [20] - 32层是“黄金补偿点”,在隐藏维度为384的情况下,32层配置取得了所有测试配置中的最高平均得分38.50%,甚至略胜于标准的12层设计(隐藏维度512,得分38.15%) [16][20][23] - 64层则属于“暴力补偿”,通过极深的层数来弥补宽度(隐藏维度256)的不足,从而也取得了约38.21%的高分 [20][16] 扩散模型的竞争优势 - 在测试的架构中,扩散模型(如dLLM, Dhara)的平均准确率(约31%-32%)略低于自回归模型(约32%-33%) [28][29] - 但扩散模型在推理速度和事实准确性(幻觉率低)方面具有显著优势 [30] - 扩散模型的推理速度比传统自回归模型快3.8倍,非常适合批量任务处理 [31] - 在所有测试架构中,扩散模型在衡量真实性的TruthfulQA基准上得分最高,dLLM-Canon模型达到了49.27% [33][34] - 通过一种称为“Canon层”(一种精心设计的卷积层)的特殊结构,可以进一步提升模型的事实准确性,为普通模型提升约1%,为扩散模型提升超过2%,而参数开销仅增加0.13% [35][36] 高效模型转换方法与新模型发布 - 利用LLaDA 2.0论文中的Warmup-Stable-Decay方法,可以将现有的自回归模型高效转换为扩散模型,所需数据量、成本和训练时间仅为从头训练的十分之一 [38][39] - 这种转换方法不仅结果与从头训练相当,而且在多项基准测试上超越了后者 [39] - 基于所有研究发现,团队推出了集大成的Dhara-70M模型,该模型参数为71.34M,采用32层(黄金深度)和384隐藏维度的最佳形状配置 [41][44] - Dhara-70M的构建方法是:首先采用最佳的自回归架构,然后使用WSD方法将其转换为扩散模型,从而兼具自回归模型的知识储备和扩散模型的吞吐量与事实性优势 [42][43] 对小模型构建者的实践启示 - 对于资源有限的小语言模型构建者,不应盲目追求最新的架构改进,而应首先关注基础的“深度-宽度配比”,确保模型不落入性能低下的“死亡区域” [45] - 如果应用场景需要高速处理且对事实准确性要求高,那么扩散模型是一个极具竞争力的选择 [45]
VLA-Arena:一个用于系统性评估VLA的开源基准框架
具身智能之心· 2025-12-31 08:50
研究背景与动机 - Vision-Language-Action模型正快速向通用机器人策略演进,已实现跨载体泛化、灵巧操作、指令跟随等多种能力 [1] - 当前对这类模型的能力边界、局限及失效模式缺乏定量理解,现有基准存在三大核心缺陷:静态任务设计、忽视安全性、偏重鲁棒性而非外推能力 [1][4] - VLA-Arena作为全面、可复现的基准框架被提出,核心目标是通过系统化设计,精准刻画VLA模型的能力前沿与失效机制 [1] 核心设计:结构化任务与基准框架 - 基准包含170个任务,按核心挑战分为四个维度,每个维度下的任务均覆盖L0-L2难度 [6] - 任务设计基于三个正交难度轴:任务结构轴、语言指令轴、视觉观察轴 [4][10] - 任务结构轴定义任务与训练分布的距离,分为L0(分布内技能)、L1(近分布泛化)、L2(远分布挑战)三级 [10] - 语言指令轴通过语义可控的词汇替换引入扰动,分为W0-W4五级,基于WordNet选择语义相近词替换指令中的关键语义槽 [10] - 视觉观察轴采用累积式视觉扰动层级,从自然变化到严重退化,分为V0-V4五级,逐步测试模型的视觉鲁棒性 [10] 关键组件与技术细节 - 基于BDDL扩展得到约束行为域定义语言,核心增强两点:支持动态物体定义、明确安全约束语法 [7][11] - 提供VLA-Arena-S/M/L数据集,按任务级别和轨迹数量划分,基于人类演示数据构建,并释放端到端工具链支持全流程 [8] - 语言扰动针对指令中的动词和名词,从WordNet选取语义距离为1的替换词 [11] - 视觉扰动各层级参数按特定分布采样,例如光照参数取自均匀分布U(-0.75,0.75),高斯噪声参数为N(μ=0, σ²=0.085) [11] 实验设计与主要发现 - 评估覆盖两大架构范式,包括自回归模型和连续动作生成模型 [12] - 评估指标包括成功率和累积成本,后者仅用于Safety维度,量化安全违规程度 [12] - 所有模型在L0训练任务上表现优异,但面对L1和L2任务时性能急剧退化,表明模型记忆优于泛化的强倾向 [14] - 模型对语言扰动普遍耐受,但对视觉扰动更脆弱,视角偏移和传感器噪声会造成严重性能损失 [15] - 当前模型难以将安全约束融入策略,存在安全-性能的矛盾权衡,成功完成复杂任务的模型往往伴随高安全违规成本 [16] - 静态干扰物比动态干扰物更具挑战性,在StaticDistractors L1任务中,部分模型成功率降至0% [19] - 所有模型在长程任务中完全失效,在L1和L2任务的成功率接近或为0,表明模型无法将原子技能链式组合 [19] - 增加L1数据或扩大L0任务覆盖范围,虽能提升近分布性能,但会损害远分布泛化能力 [17] - 与LIBERO基准对比,VLA-Arena的任务深度依赖语言理解,错误/无指令时性能下降52%-64%,证明其任务设计更注重语言-动作的语义接地 [22]
跳过“逐字生成”,蚂蚁集团赵俊博:扩散模型让我们能直接修改Token
36氪· 2025-12-12 15:17
扩散语言模型架构的技术特点与优势 - 扩散架构在推理过程中可以直接修改和控制token,无需像自回归模型那样重新生成整段内容[1] - 相比自回归模型,扩散模型理论上有望实现更快的生成速度和更低的计算成本[1] - 扩散语言模型的解码机制是“做完形填空”,即遮盖部分词后再恢复,而非自回归的“接龙”式预测[6] 扩散语言模型的性能与数据特性 - 在相同的计算量和性能目标下,扩散语言模型所需的参数规模可以比自回归模型更小[5] - 在计算受限情况下,扩散语言模型相比自回归模型更为“data-hungry”,对数据需求更大、吸收数据更快[5][8] - 与图像扩散模型类似,扩散语言模型在同样数据集和架构下可以持续训练,效果可能持续提升,而自回归模型训练多个epoch后效果常不再变动[9][10] LLaDA系列模型的发展与开源成果 - 团队近期发布并开源了LLaDA 2.0,率先将扩散语言模型做到千亿体量[1][20] - LLaDA 1.0的8B版本是第一个大规模训练到80亿参数的扩散语言模型,效果可对标LLaMA-3-8B,在Hugging Face上零推广即获得二十几万下载[19] - 团队于今年9月发布了LLaDA-MoE,总参数7B(激活参数1B),是全球第一个原生训练出来的MoE架构扩散语言模型[19] - 团队开源了一套支持5D并行集成的训练框架和推理框架,是第一个面向扩散语言模型的训练框架,已支持监督微调与直接偏好优化[16] 扩散语言模型的应用表现与潜力 - 扩散语言模型在“调用”和“写代码”这两个任务上比自回归模型有明显优势[23] - 得益于并行解码,模型一次能同时吐出几个token,在代码补全等场景中体验类似按Tab自动补全[23] - 在文学创作中,模型解码过程呈现“非共识”轨迹,例如先定下开头结尾框架,再反复修改润色中间内容,这在主流原生应用中尚未见到[23] - 通过新的模型架构与范式,若能将关键场景的每秒事务处理量推上千量级,实现五倍乃至更高的速度提升,其体验将是革命性的[25] 行业生态与发展阶段 - 扩散语言模型领域发展势头迅猛,已吸引包括谷歌、字节在内的巨头及一批初创公司积极布局[1] - 谷歌有Gemini Diffusion,美国有创业公司在做Mercury系列,字节也在进行相关研究[19] - 扩散语言模型的训练与推理生态仍处于早期发展阶段,自回归模型从ChatGPT出来已发展三年,而扩散语言模型的训推生态才刚起步[27] - 团队计划在未来一两个月联合ZenMux(一站式模型接入平台)放出部分API[23]
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026
量子位· 2025-12-12 11:00
文章核心观点 - 扩散语言模型作为一种非自回归的生成模型架构,在理论上有望实现比主流自回归模型更快的生成速度和更低的计算成本,并具备独特的可编辑生成能力,是当前大语言模型领域一个重要的非共识技术方向[2][8][20] - 浙江大学、蚂蚁集团等机构的研究团队已将扩散语言模型扩展至千亿参数规模,并开源了LLaDA 2.0模型及配套训练框架,标志着该技术路径取得了关键里程碑[4][44] - 扩散语言模型在训练和推理层面仍处于早期发展阶段,但其独特的Scaling Law、对数据的强吸收能力以及在代码生成等任务上的潜在优势,吸引了谷歌、字节等巨头及初创公司布局,未来发展值得关注[5][15][41][56] 扩散语言模型的技术原理与特点 - **核心机制差异**:自回归模型通过“接龙”方式逐个预测下一个词,而扩散语言模型采用“完形填空”机制,通过遮盖并恢复部分词来生成内容[12][13] - **训练特性**:扩散语言模型相比自回归模型更为“data-hungry”,在计算受限情况下对数据需求更大、吸收数据更快[15][21];与图像扩散模型类似,扩散语言模型在训练上具有持续性,可以在同一数据集上持续训练并提升效果,而自回归模型训练多个epoch后效果常趋于稳定[24][25][26] - **推理优势**:扩散架构在推理过程中可以直接修改和控制token,无需像自回归模型那样重新生成整段内容,这为实现可编辑和可控生成提供了可能[2][28] LLaDA系列模型的研发进展与开源贡献 - **发展历程**:中国人民大学团队率先开源了80亿参数的扩散语言模型LLaDA 1.0,其效果可对标LLaMA-3-8B,并在Hugging Face上获得超过20万次下载[35][36][37];随后蚂蚁技术研究院联合多所高校接手,致力于推动该领域发展[38] - **架构演进**:团队发布了全球首个原生训练的MoE架构扩散语言模型LLaDA-MoE,总参数70亿,激活参数10亿[40];近期发布的LLaDA 2.0,率先将扩散语言模型扩展至千亿参数体量[4][44] - **开源框架**:团队开源了首个面向扩散语言模型的训练框架,支持监督微调和直接偏好优化,并配套了推理框架,方便社区使用[31][32] 扩散语言模型的性能表现与潜在应用 - **性能表现**:在相同的计算量和性能目标下,扩散语言模型所需的参数规模可以比自回归模型更小[15][23];在全局注意力机制支持下,扩散模型在效果上相比自回归模型具备一定优势[47] - **任务优势**:扩散语言模型在“调用”和“写代码”这两个任务上比自回归模型有明显优势,得益于并行解码能力,能同时生成多个token[49] - **生成特点**:扩散模型在文学创作等任务中展现出独特的“非共识”解码轨迹,例如先确定开头结尾框架,再反复修改润色中间内容,这种生成过程在主流自回归模型中难以见到[49][50] 行业生态与未来展望 - **行业布局**:扩散语言模型领域发展势头迅猛,已吸引包括谷歌、字节在内的巨头及一批初创公司积极布局[5][41] - **发展挑战**:扩散语言模型的训练与推理仍处于早期发展阶段[5];其Scaling Law与自回归模型存在差异,已验证可扩展到千亿规模,但继续向上扩展会面临新的挑战[15][56] - **未来方向**:团队发布了试验性推理引擎dInfer,旨在通过新架构与范式提升关键场景的吞吐量,目标实现五倍乃至更高的速度提升[53][54];团队计划在未来一两个月通过ZenMux平台放出部分API,以促进社区生态成长[51]
速递|斯坦福教授创业,Inception获5000万美元种子轮融资,用扩散模型解锁实时AI应用
Z Potentials· 2025-11-07 10:12
公司融资与背景 - AI初创公司Inception获得5000万美元种子轮融资 [2] - 本轮融资由Menlo Ventures领投,Mayfield、Innovation Endeavors、微软M12基金、Snowflake Ventures、Databricks Investment及英伟达NVentures参与,吴恩达和Andrej Karpathy提供天使投资 [2] - 公司项目领导者为斯坦福大学教授Stefano Ermon,其长期专注于扩散模型研究 [3] 核心技术优势 - Inception开发基于扩散的AI模型,该方法通过迭代优化产生输出,不同于主流的自回归模型 [3] - 扩散模型具备并行处理能力,基准测试显示每秒可处理超过1000个token,显著降低复杂任务中的延迟 [5] - 该技术路径在操作大型代码库或应对数据限制时可能更具优势,设计目标为追求极致速度和计算效率 [3][5] 产品进展与应用 - 公司发布专为软件开发设计的新版Mercury模型,并已集成到ProxyAI、Buildglare和Kilo Code等多款开发工具中 [3] - 扩散方法有助于模型优化两个关键指标:延迟(响应时间)和计算成本 [3] - 公司认为基于扩散的大语言模型比现有模型更快、更高效,且该领域仍有大量创新空间 [3]