LLaDA2.1 - 财报，业绩电话会，研报，新闻

LLaDA2.1

搜索文档

观察者网· 2026-02-14 18:25

核心观点 - 蚂蚁集团开源了全球首个基于混合线性架构的万亿参数思考模型Ring-2.5-1T，在推理速度、深度思考能力和长程任务执行能力三个方面实现了突破，解决了行业长期面临的“不可能三角”难题 [1] 模型性能与突破 - 模型在数学竞赛中达到IMO金牌级别，获得35分（满分42分），在CMO中获得105分，远超国家集训队分数线87分和金牌线78分 [1][7] - 在32K以上长文本生成场景中，将访存规模降至上一代的1/10，生成吞吐量提升超3倍 [1] - 在IMOAnswerBench、AIME 26、HMMT 25、LiveCodeBench等高难度推理任务，以及Gaia2-search、Tau2-bench、SWE-Bench Verified等长时任务执行基准上，均达到开源最优水平 [5] - 在Heavy Thinking模式下，在多项数学竞赛和代码生成基准中超越了所有对比模型，包括闭源API模型GPT-5.2-thinking-high、Gemini-3.0-Pro-preview-thinking-high、Claude-Opus-4.5-Extended-Thinking等 [4][5] - 与上一代Ring-1T相比，新模型在推理逻辑严谨性、高级证明技巧运用和答案表述完整性上均有明显进步 [7] 技术创新与架构 - 模型基于Ling 2.5架构，采用混合线性注意力机制，以1:7的比例混搭MLA（多头潜在注意力）和Lightning Linear Attention两种注意力模块 [2] - 该设计源自Ring-flash-linear-2.0技术路线，通过增量训练将原有GQA层分别转化为Lightning Linear Attention和MLA，前者负责长程推理的吞吐量，后者极致压缩KV Cache [2] - 为防止模型表达能力受损，团队适配了QK Norm和Partial RoPE等特性 [2] - 激活参数量从上一代的51B提升至63B，但凭借线性时间复杂度的特性，推理效率大幅提升 [2] - 与同为1T参数量级但仅有32B激活参数的Kimi K2架构相比，Ling 2.5架构在长序列推理任务中的吞吐优势显著，且效率优势随生成长度增加而持续扩大 [2] - 在思维训练层面，模型在RLVR基础上引入了密集奖励机制，逐步考察推理过程中每一个环节的严谨性 [4] - 团队引入了大规模全异步Agentic RL训练，增强了模型在搜索、编码等长链条任务上的自主执行能力 [4] 应用与部署 - 模型使得长程推理从“烧钱又烧显卡”的重资产操作，转变为可规模化部署的轻量级方案 [4] - 模型已经适配Claude Code和OpenClaw等主流智能体框架，支持多步规划与工具调用 [7] - 模型权重与推理代码已在Hugging Face、ModelScope等平台同步开放，官方Chat体验页和API服务也将在近期上线 [7] 行业影响与趋势 - 目前业界主流路径多采用MoE架构以节省算力，头部模型如DeepSeek、Kimi、MiniMax均采用此架构 [1] - 随着AI大模型应用从短对话向长文档处理、跨文件代码理解、复杂任务规划等场景延伸，深度思考模型面临的效率瓶颈愈发突出 [8] - Ring-2.5-1T通过底层架构重构，提供了一条兼顾性能、成本与扩展性的技术路径 [8] 公司其他产品发布 - 蚂蚁集团同期还发布了扩散语言模型LLaDA2.1，采用非自回归并行解码技术，推理速度达到535 tokens/s，在HumanEval+编程任务上达到892 tokens/s，并具备Token编辑与逆向推理能力 [7] - 同期发布了全模态大模型Ming-flash-omni-2.0，在视觉、音频、文本的统一表征与生成上实现突破，支持实时感官交互 [7] - 蚂蚁inclusionAI团队的目标是将这些能力做成可复用的底座方案，为开发者提供统一的能力入口 [8] - 后续团队还将在视频时序理解、复杂图像编辑和长音频实时生成等方向持续发力，推动全模态技术规模化落地 [8]

万亿思考模型新速度！蚂蚁开源Ring-2.5-1T：IMO金牌水平，强；混合线性架构，快！

量子位· 2026-02-14 09:15

核心观点 - 蚂蚁集团发布全球首个开源混合线性架构万亿参数模型Ring-2.5-1T，在数学逻辑推理和长程自主执行能力上表现卓越，同时打破了深度思考、推理速度与显存开销的“不可能三角”，实现了高性能与高效率的平衡 [2][3][5] - 公司同期发布扩散语言模型LLaDA2.1和全模态大模型Ming-flash-omni-2.0，旨在构建统一的多模态能力底座，为开发者提供一站式解决方案 [33][36][39][40] - 通过一系列底层架构创新和训练方法，公司展示了其在AI领域顶尖的技术实力，并将技术能力转化为可复用的行业基础设施 [41][42][43] 模型性能与突破 - **数学逻辑推理能力**：Ring-2.5-1T在国际数学奥林匹克竞赛（IMO）中达到35分的金牌水平，在中国数学奥林匹克竞赛（CMO）中取得105分，远超国家集训队线 [3] - **长程任务执行能力**：模型在搜索、编码等复杂任务上能独当一面，并通过大规模全异步Agentic RL训练，从“做题家”转变为能下场干活的“实战派” [3][18] - **效率突破**：模型在生成长度超过32K时，将访存规模降至原来的十分之一以下，同时生成吞吐量暴涨了3倍多，解决了长窗口下显存爆炸的难题 [7][14][16] - **推理效率提升**：通过架构重构，模型激活参数量从510亿提升至630亿，但推理效率相比Ling 2.0仍实现大幅提升 [15] 技术架构创新 - **混合线性注意力架构**：采用1:7的MLA（Multi-Head Latent Attention）配Lightning Linear Attention的混搭设计，基于Ring-flash-linear-2.0技术路线演进 [9] - **增量训练与架构转换**：通过将部分GQA层转化为Lightning Linear Attention以提升长程推理吞吐量，并将剩余GQA层近似转换为MLA以极致压缩KV Cache [12] - **性能保障技术**：适配了QK Norm和Partial RoPE等特性，确保模型在架构改造后性能不降级 [13] - **密集奖励机制**：在思维训练中引入该机制，重点考察解题步骤的严谨性，大幅减少逻辑漏洞并提升高阶证明技巧 [18] 实战能力验证 - **抽象代数证明**：在群论证明题中，模型能熟练运用Cauchy定理，避开直觉陷阱，并引用Heisenberg群作为反例，逻辑推导严丝合缝 [20][21][24] - **系统级编程**：能用Rust语言从零手写高并发线程池，支持优雅关机、崩溃自动重启与任务恢复，代码在所有权管理与并发控制上表现老练 [25][27] - **复杂项目开发**：在Claude Code中自动开发出微型版操作系统，并持续完善功能，如实现bash命令界面 [28][31] 多模态模型发布 - **扩散语言模型LLaDA2.1**：采用非自回归并行解码技术，推理速度达到535 tokens/s，在特定编程任务上吞吐量达892 tokens/s，具备Token编辑与逆向推理能力 [33] - **全模态大模型Ming-flash-omni-2.0**：打通视觉、音频与文本的统一表征与生成，实现高响应频率下的实时感官交互与音画同步创作 [36][37] 行业战略与影响 - **构建可复用底座**：公司将发布的多种AI能力整合为统一底座，旨在为开发者提供统一的能力入口，降低多模态应用开发门槛 [39][40][43] - **未来技术方向**：团队将继续攻坚视频时序理解、复杂图像编辑和长音频实时生成等关键技术，以推动全模态AI的规模化落地 [41] - **行业地位**：公司的技术发布展现了其在全球AI领域第一梯队的实力，并将行业竞争门槛推向更高水平 [42][44]

小众架构赢麻了，通过编辑功能让100B扩散模型飙出892 tokens/秒的速度

36氪· 2026-02-11 13:21

模型发布与定位 - 蚂蚁集团技术研究院开源了其最新扩散语言模型LLaDA2.1，标志着该系列从研究模型向实用产品的关键转变 [1][2][5] - 该模型在100B参数规模上实现了前所未有的速度，在复杂编程任务中飙出892 tokens/秒的峰值速度，对主流自回归架构形成显著优势 [1][18][20] - 公司还开源了16B的Mini版本，其在部分任务上的峰值速度超过1500 tokens/秒，为轻量化部署提供了可能 [24] 核心技术突破：架构与速度 - 模型采用扩散架构而非主流自回归架构，其并行生成特性理论上拥有巨大的速度潜力 [3] - 核心创新是“可纠错编辑”机制，将推理分为“草稿生成”和“编辑修正”两个阶段，允许模型自我修正，从根本上解决了扩散模型的曝光偏差和全局一致性问题 [8][9][12][13] - 通过“单模型双模式”设计，用户可灵活切换“极速模式”与“质量模式”，在单个模型内实现了速度与质量的解耦，这是首次在扩散架构上实现该特性 [3][4][5][13] 性能表现 - **速度**：在HumanEval+编程基准上，LLaDA2.1-flash（100B）在极速模式下峰值速度达到892 TPS；其Mini版本在多项任务上TPS超过1500 [5][7][24] - **质量**：在涵盖知识、推理、代码、数学及指令遵循的33个权威基准测试中，LLaDA2.1在质量模式下全面超越了前代LLaDA2.0 [22] - **效率平衡**：即使在追求速度的极速模式下，其性能下降也微乎其微，做到了速度与质量兼得 [21][23] 训练方法创新 - 团队成功在100B规模扩散模型上实施了强化学习训练，此为业界首次 [14][16] - 定制了EBPO算法以克服扩散模型序列级似然难以计算的问题，使模型在指令遵循等对齐类任务上表现显著提升 [16][19] 行业意义与哲学 - 该模型的成功证明，在大模型时代，坚持非主流的技术路线（扩散模型）并走到底，同样可以取得突破性胜利 [26] - 其设计哲学是让模型像人类一样“写作+修改”，通过并行生成草稿再全局编辑，定义了新的推理范式 [8][13]

扩散语言模型

自回归模型

Artificial Intelligence

LLaDA2.1

扩散语言模型

自回归模型

Artificial Intelligence

LLaDA2.1

里程碑时刻，100B扩散语言模型跑出892 Tokens /秒，AI的另一条路走通了

36氪· 2026-02-11 12:31

模型发布与核心突破 - 扩散语言模型（dLLM）赛道迎来质变，LLaDA2.1在HuggingFace上线，包含16B参数的Mini版和100B参数的Flash版 [1] - LLaDA2.1实现了扩散语言模型的“成人礼”，其峰值速度达到892 Tokens/秒，首次将理论效率优势变为现实，并具备边生成边纠错的机制 [3] - 模型采用“起草-编辑”的并行生成范式，打破了自回归模型“下笔无悔”、误差累积的困境，为规模化应用提供了新路径 [3] 技术架构与创新机制 - 提出可纠错编辑机制，模型能在毫秒级采样中起草答案，随后进行检查和修正，解决了并行解码中局部不一致性的问题 [13] - 引入单模型双模式设计，用户可通过一条配置在质量模式和极速模式间切换，解决了以往多版本管理复杂和精度掉点严重的问题 [15] - 在百亿参数规模上首次成功应用强化学习后训练，采用基于ELBO的块级策略优化方法，提升了模型对指令的理解和意图对齐能力 [16][17] 性能表现与基准测试 - 在复杂编程基准HumanEval+上，100B参数的LLaDA2.1-Flash实现了891.74 TPS的峰值速度，16B参数的Mini版峰值TPS高达1586.93 [22] - 在质量模式下，LLaDA2.1在Mini与Flash两个规模上全面超越前代LLaDA2.0的表现 [20] - 在速度模式下，模型牺牲极少的输出质量，实现了显著的推理速度优势，尤其在代码类任务中吞吐率最高 [24] 行业影响与范式意义 - LLaDA2.1证明了扩散语言模型在百亿参数规模上的可行性，突破了该路线长期存在的规模天花板 [11] - 该模型通过系统性创新，解决了扩散模型在速度与生成质量之间的核心矛盾，使其跨过了从“能跑”到“能用”的门槛 [9] - 此次突破打破了自回归架构在大语言模型领域的路径单一性，表明在主流之外存在另一条可持续推进且具备效率优势的技术方向 [26]

扩散语言模型

自回归模型

Artificial Intelligence

LLaDA2.1

扩散语言模型

自回归模型

Artificial Intelligence

LLaDA2.1

里程碑时刻！100B扩散语言模型跑出892 Tokens /秒，AI的另一条路走通了

机器之心· 2026-02-11 09:59

文章核心观点 - 扩散语言模型（dLLM）这一曾被视为小众的研究方向，通过LLaDA2.1的发布实现了质变，标志着该技术路线已从理论走向真正可用，甚至在效率上展现出超越主流自回归模型的潜力 [2][4] - LLaDA2.1通过引入可纠错编辑机制、单模型双模式设计以及强化学习后训练等系统性创新，有效解决了扩散模型长期存在的“速度-质量”矛盾，在百亿参数规模下实现了前所未有的推理速度 [4][11][13] - 该模型的成功可能预示着AI大模型底层架构的范式多样性正在增加，为自回归模型之外提供了另一条可行且高效的技术发展路径 [33] 模型发布与规模突破 - LLaDA2.1于本周一在HuggingFace上线，包含LLaDA2.1-Mini（16B参数）和LLaDA2.1-Flash（100B参数）两个版本，距离上一版本发布仅两个月 [2] - 其100B参数规模本身，突破了扩散语言模型长期存在的规模天花板，此前该路线模型规模普遍停留在几十亿到三百亿参数以内 [14] 技术原理与核心创新 - **可纠错编辑机制**：模型采用“起草-编辑”的两步范式，首先生成草稿，随后进行全局评估和自我修正，解决了并行解码中错误无法回溯的问题 [16][19] - **单模型双模式**：一个模型支持“极速模式”和“质量模式”，用户仅需一条配置即可切换，避免了维护多个版本带来的管理和精度损失问题 [20] - **强化学习应用**：团队首次将基于ELBO的块级策略优化方法应用于百亿参数级扩散模型，以提升模型对指令的理解和意图对齐能力 [21][22] 性能表现与效率数据 - **峰值速度**：LLaDA2.1-Flash在处理复杂编程任务时，实现了**892 Tokens/秒**的峰值速度 [4][13] - **量化后速度**：在HumanEval+基准测试中，量化后的LLaDA2.1-Flash峰值速度达**891.74 TPS**，LLaDA2.1-Mini峰值速度高达**1586.93 TPS** [28] - **综合性能**：在“质量模式”下，LLaDA2.1在mini与flash两个规模上均全面超越了LLaDA2.0的表现 [24] - **效率优势**：在“极速模式”下，模型在仅牺牲极少输出质量的前提下，实现了显著更快的推理速度 [30] 行业意义与潜在影响 - LLaDA2.1的成功证明扩散语言模型并非只能停留在实验室阶段，其并行生成、边写边改的特性为解决自回归模型推理速度慢、错误累积等问题提供了新思路 [4][33] - 行业可能不会立即发生范式的彻底更替，但技术路径的单一性正在被打破，在自回归之外存在另一条可持续推进且值得投入的方向 [33]

小众架构赢麻了！通过编辑功能让100B扩散模型飙出892 tokens/秒的速度！

量子位· 2026-02-11 09:55

模型架构与性能突破 - 蚂蚁集团开源了基于扩散架构的语言模型LLaDA2.1，在100B参数规模上实现了高达892 tokens/秒的生成速度，显著超越了主流自回归模型几十token/秒的速度水平 [1][3] - 该模型在HumanEval+编程基准测试中，LLaDA2.1-flash（100B）在极速模式下峰值速度达到892 TPS，其16B的Mini版本在部分任务上的峰值速度甚至超过1500 tokens/秒 [11][33] - 模型在涵盖知识、推理、代码、数学及指令遵循的33个权威基准测试中，质量模式下的性能全面超越了前代LLaDA2.0，实现了速度与质量兼得 [31][32] 核心技术：可纠错编辑与双模式解码 - LLaDA2.1引入了可纠错编辑机制，将推理过程分为两个阶段：极速并行生成草稿，然后立即启动编辑模式进行全局检查和回溯式修正，解决了扩散模型缺乏全局一致性的问题 [16][17][21] - 模型采用单模型双模式设计，用户可通过一条配置切换模式：极速模式通过激进并行生成和后期编辑保障吞吐量；质量模式采用保守阈值优先保障输出准确性 [8][10][13] - 这种设计首次在扩散架构上实现了速度与质量的解耦，标志着该系列从研究模型向实用产品的关键转变 [4][22] 训练创新：强化学习的应用 - 团队首次在100B规模的扩散语言模型上成功实施了大规模强化学习训练，定制了EBPO算法 [23][26] - 该算法以证据下界作为序列似然的代理目标，通过向量化似然估计技术并行计算多时间步的块条件概率，并设计了专门的梯度稳定机制 [25][28] - 应用强化学习后，LLaDA2.1在IFEval（指令遵循评估）、BFCL（函数调用）等对齐类任务上表现显著提升 [26] 行业意义与影响 - 在自回归模型主导的行业背景下，LLaDA2.1证明了扩散架构这条“非共识”技术路线的巨大潜力，尤其是在生成速度方面具有显著优势 [1][5][29] - 该模型的成功表明，在大模型时代，坚持并深化非主流技术路线同样可以取得突破性进展 [34] - 模型的开源为行业提供了在复杂编程、快速推理等对吞吐量敏感场景下的高效新工具选择 [4][35]