LLaDA2.1
搜索文档
蚂蚁集团开源万亿思考模型 Ring-2.5-1T,打破大模型“不可能三角”
观察者网· 2026-02-14 18:25
核心观点 - 蚂蚁集团开源了全球首个基于混合线性架构的万亿参数思考模型Ring-2.5-1T,在推理速度、深度思考能力和长程任务执行能力三个方面实现了突破,解决了行业长期面临的“不可能三角”难题 [1] 模型性能与突破 - 模型在数学竞赛中达到IMO金牌级别,获得35分(满分42分),在CMO中获得105分,远超国家集训队分数线87分和金牌线78分 [1][7] - 在32K以上长文本生成场景中,将访存规模降至上一代的1/10,生成吞吐量提升超3倍 [1] - 在IMOAnswerBench、AIME 26、HMMT 25、LiveCodeBench等高难度推理任务,以及Gaia2-search、Tau2-bench、SWE-Bench Verified等长时任务执行基准上,均达到开源最优水平 [5] - 在Heavy Thinking模式下,在多项数学竞赛和代码生成基准中超越了所有对比模型,包括闭源API模型GPT-5.2-thinking-high、Gemini-3.0-Pro-preview-thinking-high、Claude-Opus-4.5-Extended-Thinking等 [4][5] - 与上一代Ring-1T相比,新模型在推理逻辑严谨性、高级证明技巧运用和答案表述完整性上均有明显进步 [7] 技术创新与架构 - 模型基于Ling 2.5架构,采用混合线性注意力机制,以1:7的比例混搭MLA(多头潜在注意力)和Lightning Linear Attention两种注意力模块 [2] - 该设计源自Ring-flash-linear-2.0技术路线,通过增量训练将原有GQA层分别转化为Lightning Linear Attention和MLA,前者负责长程推理的吞吐量,后者极致压缩KV Cache [2] - 为防止模型表达能力受损,团队适配了QK Norm和Partial RoPE等特性 [2] - 激活参数量从上一代的51B提升至63B,但凭借线性时间复杂度的特性,推理效率大幅提升 [2] - 与同为1T参数量级但仅有32B激活参数的Kimi K2架构相比,Ling 2.5架构在长序列推理任务中的吞吐优势显著,且效率优势随生成长度增加而持续扩大 [2] - 在思维训练层面,模型在RLVR基础上引入了密集奖励机制,逐步考察推理过程中每一个环节的严谨性 [4] - 团队引入了大规模全异步Agentic RL训练,增强了模型在搜索、编码等长链条任务上的自主执行能力 [4] 应用与部署 - 模型使得长程推理从“烧钱又烧显卡”的重资产操作,转变为可规模化部署的轻量级方案 [4] - 模型已经适配Claude Code和OpenClaw等主流智能体框架,支持多步规划与工具调用 [7] - 模型权重与推理代码已在Hugging Face、ModelScope等平台同步开放,官方Chat体验页和API服务也将在近期上线 [7] 行业影响与趋势 - 目前业界主流路径多采用MoE架构以节省算力,头部模型如DeepSeek、Kimi、MiniMax均采用此架构 [1] - 随着AI大模型应用从短对话向长文档处理、跨文件代码理解、复杂任务规划等场景延伸,深度思考模型面临的效率瓶颈愈发突出 [8] - Ring-2.5-1T通过底层架构重构,提供了一条兼顾性能、成本与扩展性的技术路径 [8] 公司其他产品发布 - 蚂蚁集团同期还发布了扩散语言模型LLaDA2.1,采用非自回归并行解码技术,推理速度达到535 tokens/s,在HumanEval+编程任务上达到892 tokens/s,并具备Token编辑与逆向推理能力 [7] - 同期发布了全模态大模型Ming-flash-omni-2.0,在视觉、音频、文本的统一表征与生成上实现突破,支持实时感官交互 [7] - 蚂蚁inclusionAI团队的目标是将这些能力做成可复用的底座方案,为开发者提供统一的能力入口 [8] - 后续团队还将在视频时序理解、复杂图像编辑和长音频实时生成等方向持续发力,推动全模态技术规模化落地 [8]
万亿思考模型新速度!蚂蚁开源Ring-2.5-1T:IMO金牌水平,强;混合线性架构,快!
量子位· 2026-02-14 09:15
核心观点 - 蚂蚁集团发布全球首个开源混合线性架构万亿参数模型Ring-2.5-1T,在数学逻辑推理和长程自主执行能力上表现卓越,同时打破了深度思考、推理速度与显存开销的“不可能三角”,实现了高性能与高效率的平衡 [2][3][5] - 公司同期发布扩散语言模型LLaDA2.1和全模态大模型Ming-flash-omni-2.0,旨在构建统一的多模态能力底座,为开发者提供一站式解决方案 [33][36][39][40] - 通过一系列底层架构创新和训练方法,公司展示了其在AI领域顶尖的技术实力,并将技术能力转化为可复用的行业基础设施 [41][42][43] 模型性能与突破 - **数学逻辑推理能力**:Ring-2.5-1T在国际数学奥林匹克竞赛(IMO)中达到35分的金牌水平,在中国数学奥林匹克竞赛(CMO)中取得105分,远超国家集训队线 [3] - **长程任务执行能力**:模型在搜索、编码等复杂任务上能独当一面,并通过大规模全异步Agentic RL训练,从“做题家”转变为能下场干活的“实战派” [3][18] - **效率突破**:模型在生成长度超过32K时,将访存规模降至原来的十分之一以下,同时生成吞吐量暴涨了3倍多,解决了长窗口下显存爆炸的难题 [7][14][16] - **推理效率提升**:通过架构重构,模型激活参数量从510亿提升至630亿,但推理效率相比Ling 2.0仍实现大幅提升 [15] 技术架构创新 - **混合线性注意力架构**:采用1:7的MLA(Multi-Head Latent Attention)配Lightning Linear Attention的混搭设计,基于Ring-flash-linear-2.0技术路线演进 [9] - **增量训练与架构转换**:通过将部分GQA层转化为Lightning Linear Attention以提升长程推理吞吐量,并将剩余GQA层近似转换为MLA以极致压缩KV Cache [12] - **性能保障技术**:适配了QK Norm和Partial RoPE等特性,确保模型在架构改造后性能不降级 [13] - **密集奖励机制**:在思维训练中引入该机制,重点考察解题步骤的严谨性,大幅减少逻辑漏洞并提升高阶证明技巧 [18] 实战能力验证 - **抽象代数证明**:在群论证明题中,模型能熟练运用Cauchy定理,避开直觉陷阱,并引用Heisenberg群作为反例,逻辑推导严丝合缝 [20][21][24] - **系统级编程**:能用Rust语言从零手写高并发线程池,支持优雅关机、崩溃自动重启与任务恢复,代码在所有权管理与并发控制上表现老练 [25][27] - **复杂项目开发**:在Claude Code中自动开发出微型版操作系统,并持续完善功能,如实现bash命令界面 [28][31] 多模态模型发布 - **扩散语言模型LLaDA2.1**:采用非自回归并行解码技术,推理速度达到535 tokens/s,在特定编程任务上吞吐量达892 tokens/s,具备Token编辑与逆向推理能力 [33] - **全模态大模型Ming-flash-omni-2.0**:打通视觉、音频与文本的统一表征与生成,实现高响应频率下的实时感官交互与音画同步创作 [36][37] 行业战略与影响 - **构建可复用底座**:公司将发布的多种AI能力整合为统一底座,旨在为开发者提供统一的能力入口,降低多模态应用开发门槛 [39][40][43] - **未来技术方向**:团队将继续攻坚视频时序理解、复杂图像编辑和长音频实时生成等关键技术,以推动全模态AI的规模化落地 [41] - **行业地位**:公司的技术发布展现了其在全球AI领域第一梯队的实力,并将行业竞争门槛推向更高水平 [42][44]
小众架构赢麻了,通过编辑功能让100B扩散模型飙出892 tokens/秒的速度
36氪· 2026-02-11 13:21
模型发布与定位 - 蚂蚁集团技术研究院开源了其最新扩散语言模型LLaDA2.1,标志着该系列从研究模型向实用产品的关键转变 [1][2][5] - 该模型在100B参数规模上实现了前所未有的速度,在复杂编程任务中飙出892 tokens/秒的峰值速度,对主流自回归架构形成显著优势 [1][18][20] - 公司还开源了16B的Mini版本,其在部分任务上的峰值速度超过1500 tokens/秒,为轻量化部署提供了可能 [24] 核心技术突破:架构与速度 - 模型采用扩散架构而非主流自回归架构,其并行生成特性理论上拥有巨大的速度潜力 [3] - 核心创新是“可纠错编辑”机制,将推理分为“草稿生成”和“编辑修正”两个阶段,允许模型自我修正,从根本上解决了扩散模型的曝光偏差和全局一致性问题 [8][9][12][13] - 通过“单模型双模式”设计,用户可灵活切换“极速模式”与“质量模式”,在单个模型内实现了速度与质量的解耦,这是首次在扩散架构上实现该特性 [3][4][5][13] 性能表现 - **速度**:在HumanEval+编程基准上,LLaDA2.1-flash(100B)在极速模式下峰值速度达到892 TPS;其Mini版本在多项任务上TPS超过1500 [5][7][24] - **质量**:在涵盖知识、推理、代码、数学及指令遵循的33个权威基准测试中,LLaDA2.1在质量模式下全面超越了前代LLaDA2.0 [22] - **效率平衡**:即使在追求速度的极速模式下,其性能下降也微乎其微,做到了速度与质量兼得 [21][23] 训练方法创新 - 团队成功在100B规模扩散模型上实施了强化学习训练,此为业界首次 [14][16] - 定制了EBPO算法以克服扩散模型序列级似然难以计算的问题,使模型在指令遵循等对齐类任务上表现显著提升 [16][19] 行业意义与哲学 - 该模型的成功证明,在大模型时代,坚持非主流的技术路线(扩散模型)并走到底,同样可以取得突破性胜利 [26] - 其设计哲学是让模型像人类一样“写作+修改”,通过并行生成草稿再全局编辑,定义了新的推理范式 [8][13]
里程碑时刻,100B扩散语言模型跑出892 Tokens /秒,AI的另一条路走通了
36氪· 2026-02-11 12:31
模型发布与核心突破 - 扩散语言模型(dLLM)赛道迎来质变,LLaDA2.1在HuggingFace上线,包含16B参数的Mini版和100B参数的Flash版 [1] - LLaDA2.1实现了扩散语言模型的“成人礼”,其峰值速度达到892 Tokens/秒,首次将理论效率优势变为现实,并具备边生成边纠错的机制 [3] - 模型采用“起草-编辑”的并行生成范式,打破了自回归模型“下笔无悔”、误差累积的困境,为规模化应用提供了新路径 [3] 技术架构与创新机制 - 提出可纠错编辑机制,模型能在毫秒级采样中起草答案,随后进行检查和修正,解决了并行解码中局部不一致性的问题 [13] - 引入单模型双模式设计,用户可通过一条配置在质量模式和极速模式间切换,解决了以往多版本管理复杂和精度掉点严重的问题 [15] - 在百亿参数规模上首次成功应用强化学习后训练,采用基于ELBO的块级策略优化方法,提升了模型对指令的理解和意图对齐能力 [16][17] 性能表现与基准测试 - 在复杂编程基准HumanEval+上,100B参数的LLaDA2.1-Flash实现了891.74 TPS的峰值速度,16B参数的Mini版峰值TPS高达1586.93 [22] - 在质量模式下,LLaDA2.1在Mini与Flash两个规模上全面超越前代LLaDA2.0的表现 [20] - 在速度模式下,模型牺牲极少的输出质量,实现了显著的推理速度优势,尤其在代码类任务中吞吐率最高 [24] 行业影响与范式意义 - LLaDA2.1证明了扩散语言模型在百亿参数规模上的可行性,突破了该路线长期存在的规模天花板 [11] - 该模型通过系统性创新,解决了扩散模型在速度与生成质量之间的核心矛盾,使其跨过了从“能跑”到“能用”的门槛 [9] - 此次突破打破了自回归架构在大语言模型领域的路径单一性,表明在主流之外存在另一条可持续推进且具备效率优势的技术方向 [26]
里程碑时刻!100B扩散语言模型跑出892 Tokens /秒,AI的另一条路走通了
机器之心· 2026-02-11 09:59
文章核心观点 - 扩散语言模型(dLLM)这一曾被视为小众的研究方向,通过LLaDA2.1的发布实现了质变,标志着该技术路线已从理论走向真正可用,甚至在效率上展现出超越主流自回归模型的潜力 [2][4] - LLaDA2.1通过引入可纠错编辑机制、单模型双模式设计以及强化学习后训练等系统性创新,有效解决了扩散模型长期存在的“速度-质量”矛盾,在百亿参数规模下实现了前所未有的推理速度 [4][11][13] - 该模型的成功可能预示着AI大模型底层架构的范式多样性正在增加,为自回归模型之外提供了另一条可行且高效的技术发展路径 [33] 模型发布与规模突破 - LLaDA2.1于本周一在HuggingFace上线,包含LLaDA2.1-Mini(16B参数)和LLaDA2.1-Flash(100B参数)两个版本,距离上一版本发布仅两个月 [2] - 其100B参数规模本身,突破了扩散语言模型长期存在的规模天花板,此前该路线模型规模普遍停留在几十亿到三百亿参数以内 [14] 技术原理与核心创新 - **可纠错编辑机制**:模型采用“起草-编辑”的两步范式,首先生成草稿,随后进行全局评估和自我修正,解决了并行解码中错误无法回溯的问题 [16][19] - **单模型双模式**:一个模型支持“极速模式”和“质量模式”,用户仅需一条配置即可切换,避免了维护多个版本带来的管理和精度损失问题 [20] - **强化学习应用**:团队首次将基于ELBO的块级策略优化方法应用于百亿参数级扩散模型,以提升模型对指令的理解和意图对齐能力 [21][22] 性能表现与效率数据 - **峰值速度**:LLaDA2.1-Flash在处理复杂编程任务时,实现了**892 Tokens/秒**的峰值速度 [4][13] - **量化后速度**:在HumanEval+基准测试中,量化后的LLaDA2.1-Flash峰值速度达**891.74 TPS**,LLaDA2.1-Mini峰值速度高达**1586.93 TPS** [28] - **综合性能**:在“质量模式”下,LLaDA2.1在mini与flash两个规模上均全面超越了LLaDA2.0的表现 [24] - **效率优势**:在“极速模式”下,模型在仅牺牲极少输出质量的前提下,实现了显著更快的推理速度 [30] 行业意义与潜在影响 - LLaDA2.1的成功证明扩散语言模型并非只能停留在实验室阶段,其并行生成、边写边改的特性为解决自回归模型推理速度慢、错误累积等问题提供了新思路 [4][33] - 行业可能不会立即发生范式的彻底更替,但技术路径的单一性正在被打破,在自回归之外存在另一条可持续推进且值得投入的方向 [33]
小众架构赢麻了!通过编辑功能让100B扩散模型飙出892 tokens/秒的速度!
量子位· 2026-02-11 09:55
模型架构与性能突破 - 蚂蚁集团开源了基于扩散架构的语言模型LLaDA2.1,在100B参数规模上实现了高达892 tokens/秒的生成速度,显著超越了主流自回归模型几十token/秒的速度水平 [1][3] - 该模型在HumanEval+编程基准测试中,LLaDA2.1-flash(100B)在极速模式下峰值速度达到892 TPS,其16B的Mini版本在部分任务上的峰值速度甚至超过1500 tokens/秒 [11][33] - 模型在涵盖知识、推理、代码、数学及指令遵循的33个权威基准测试中,质量模式下的性能全面超越了前代LLaDA2.0,实现了速度与质量兼得 [31][32] 核心技术:可纠错编辑与双模式解码 - LLaDA2.1引入了可纠错编辑机制,将推理过程分为两个阶段:极速并行生成草稿,然后立即启动编辑模式进行全局检查和回溯式修正,解决了扩散模型缺乏全局一致性的问题 [16][17][21] - 模型采用单模型双模式设计,用户可通过一条配置切换模式:极速模式通过激进并行生成和后期编辑保障吞吐量;质量模式采用保守阈值优先保障输出准确性 [8][10][13] - 这种设计首次在扩散架构上实现了速度与质量的解耦,标志着该系列从研究模型向实用产品的关键转变 [4][22] 训练创新:强化学习的应用 - 团队首次在100B规模的扩散语言模型上成功实施了大规模强化学习训练,定制了EBPO算法 [23][26] - 该算法以证据下界作为序列似然的代理目标,通过向量化似然估计技术并行计算多时间步的块条件概率,并设计了专门的梯度稳定机制 [25][28] - 应用强化学习后,LLaDA2.1在IFEval(指令遵循评估)、BFCL(函数调用)等对齐类任务上表现显著提升 [26] 行业意义与影响 - 在自回归模型主导的行业背景下,LLaDA2.1证明了扩散架构这条“非共识”技术路线的巨大潜力,尤其是在生成速度方面具有显著优势 [1][5][29] - 该模型的成功表明,在大模型时代,坚持并深化非主流技术路线同样可以取得突破性进展 [34] - 模型的开源为行业提供了在复杂编程、快速推理等对吞吐量敏感场景下的高效新工具选择 [4][35]