蚂蚁集团开源万亿思考模型 Ring-2.5-1T,打破大模型“不可能三角”

核心观点 - 蚂蚁集团开源了全球首个基于混合线性架构的万亿参数思考模型Ring-2.5-1T,在推理速度、深度思考能力和长程任务执行能力三个方面实现了突破,解决了行业长期面临的“不可能三角”难题 [1] 模型性能与突破 - 模型在数学竞赛中达到IMO金牌级别,获得35分(满分42分),在CMO中获得105分,远超国家集训队分数线87分和金牌线78分 [1][7] - 在32K以上长文本生成场景中,将访存规模降至上一代的1/10,生成吞吐量提升超3倍 [1] - 在IMOAnswerBench、AIME 26、HMMT 25、LiveCodeBench等高难度推理任务,以及Gaia2-search、Tau2-bench、SWE-Bench Verified等长时任务执行基准上,均达到开源最优水平 [5] - 在Heavy Thinking模式下,在多项数学竞赛和代码生成基准中超越了所有对比模型,包括闭源API模型GPT-5.2-thinking-high、Gemini-3.0-Pro-preview-thinking-high、Claude-Opus-4.5-Extended-Thinking等 [4][5] - 与上一代Ring-1T相比,新模型在推理逻辑严谨性、高级证明技巧运用和答案表述完整性上均有明显进步 [7] 技术创新与架构 - 模型基于Ling 2.5架构,采用混合线性注意力机制,以1:7的比例混搭MLA(多头潜在注意力)和Lightning Linear Attention两种注意力模块 [2] - 该设计源自Ring-flash-linear-2.0技术路线,通过增量训练将原有GQA层分别转化为Lightning Linear Attention和MLA,前者负责长程推理的吞吐量,后者极致压缩KV Cache [2] - 为防止模型表达能力受损,团队适配了QK Norm和Partial RoPE等特性 [2] - 激活参数量从上一代的51B提升至63B,但凭借线性时间复杂度的特性,推理效率大幅提升 [2] - 与同为1T参数量级但仅有32B激活参数的Kimi K2架构相比,Ling 2.5架构在长序列推理任务中的吞吐优势显著,且效率优势随生成长度增加而持续扩大 [2] - 在思维训练层面,模型在RLVR基础上引入了密集奖励机制,逐步考察推理过程中每一个环节的严谨性 [4] - 团队引入了大规模全异步Agentic RL训练,增强了模型在搜索、编码等长链条任务上的自主执行能力 [4] 应用与部署 - 模型使得长程推理从“烧钱又烧显卡”的重资产操作,转变为可规模化部署的轻量级方案 [4] - 模型已经适配Claude Code和OpenClaw等主流智能体框架,支持多步规划与工具调用 [7] - 模型权重与推理代码已在Hugging Face、ModelScope等平台同步开放,官方Chat体验页和API服务也将在近期上线 [7] 行业影响与趋势 - 目前业界主流路径多采用MoE架构以节省算力,头部模型如DeepSeek、Kimi、MiniMax均采用此架构 [1] - 随着AI大模型应用从短对话向长文档处理、跨文件代码理解、复杂任务规划等场景延伸,深度思考模型面临的效率瓶颈愈发突出 [8] - Ring-2.5-1T通过底层架构重构,提供了一条兼顾性能、成本与扩展性的技术路径 [8] 公司其他产品发布 - 蚂蚁集团同期还发布了扩散语言模型LLaDA2.1,采用非自回归并行解码技术,推理速度达到535 tokens/s,在HumanEval+编程任务上达到892 tokens/s,并具备Token编辑与逆向推理能力 [7] - 同期发布了全模态大模型Ming-flash-omni-2.0,在视觉、音频、文本的统一表征与生成上实现突破,支持实时感官交互 [7] - 蚂蚁inclusionAI团队的目标是将这些能力做成可复用的底座方案,为开发者提供统一的能力入口 [8] - 后续团队还将在视频时序理解、复杂图像编辑和长音频实时生成等方向持续发力,推动全模态技术规模化落地 [8]

蚂蚁集团开源万亿思考模型 Ring-2.5-1T,打破大模型“不可能三角” - Reportify