蚂蚁集团开源万亿思考模型 Ring-2.5-1T，打破大模型“不可能三角”

核心观点 - 蚂蚁集团开源了全球首个基于混合线性架构的万亿参数思考模型Ring-2.5-1T，在推理速度、深度思考能力和长程任务执行能力三个方面实现了突破，解决了行业长期面临的“不可能三角”难题 [1] 模型性能与突破 - 模型在数学竞赛中达到IMO金牌级别，获得35分（满分42分），在CMO中获得105分，远超国家集训队分数线87分和金牌线78分 [1][7] - 在32K以上长文本生成场景中，将访存规模降至上一代的1/10，生成吞吐量提升超3倍 [1] - 在IMOAnswerBench、AIME 26、HMMT 25、LiveCodeBench等高难度推理任务，以及Gaia2-search、Tau2-bench、SWE-Bench Verified等长时任务执行基准上，均达到开源最优水平 [5] - 在Heavy Thinking模式下，在多项数学竞赛和代码生成基准中超越了所有对比模型，包括闭源API模型GPT-5.2-thinking-high、Gemini-3.0-Pro-preview-thinking-high、Claude-Opus-4.5-Extended-Thinking等 [4][5] - 与上一代Ring-1T相比，新模型在推理逻辑严谨性、高级证明技巧运用和答案表述完整性上均有明显进步 [7] 技术创新与架构 - 模型基于Ling 2.5架构，采用混合线性注意力机制，以1:7的比例混搭MLA（多头潜在注意力）和Lightning Linear Attention两种注意力模块 [2] - 该设计源自Ring-flash-linear-2.0技术路线，通过增量训练将原有GQA层分别转化为Lightning Linear Attention和MLA，前者负责长程推理的吞吐量，后者极致压缩KV Cache [2] - 为防止模型表达能力受损，团队适配了QK Norm和Partial RoPE等特性 [2] - 激活参数量从上一代的51B提升至63B，但凭借线性时间复杂度的特性，推理效率大幅提升 [2] - 与同为1T参数量级但仅有32B激活参数的Kimi K2架构相比，Ling 2.5架构在长序列推理任务中的吞吐优势显著，且效率优势随生成长度增加而持续扩大 [2] - 在思维训练层面，模型在RLVR基础上引入了密集奖励机制，逐步考察推理过程中每一个环节的严谨性 [4] - 团队引入了大规模全异步Agentic RL训练，增强了模型在搜索、编码等长链条任务上的自主执行能力 [4] 应用与部署 - 模型使得长程推理从“烧钱又烧显卡”的重资产操作，转变为可规模化部署的轻量级方案 [4] - 模型已经适配Claude Code和OpenClaw等主流智能体框架，支持多步规划与工具调用 [7] - 模型权重与推理代码已在Hugging Face、ModelScope等平台同步开放，官方Chat体验页和API服务也将在近期上线 [7] 行业影响与趋势 - 目前业界主流路径多采用MoE架构以节省算力，头部模型如DeepSeek、Kimi、MiniMax均采用此架构 [1] - 随着AI大模型应用从短对话向长文档处理、跨文件代码理解、复杂任务规划等场景延伸，深度思考模型面临的效率瓶颈愈发突出 [8] - Ring-2.5-1T通过底层架构重构，提供了一条兼顾性能、成本与扩展性的技术路径 [8] 公司其他产品发布 - 蚂蚁集团同期还发布了扩散语言模型LLaDA2.1，采用非自回归并行解码技术，推理速度达到535 tokens/s，在HumanEval+编程任务上达到892 tokens/s，并具备Token编辑与逆向推理能力 [7] - 同期发布了全模态大模型Ming-flash-omni-2.0，在视觉、音频、文本的统一表征与生成上实现突破，支持实时感官交互 [7] - 蚂蚁inclusionAI团队的目标是将这些能力做成可复用的底座方案，为开发者提供统一的能力入口 [8] - 后续团队还将在视频时序理解、复杂图像编辑和长音频实时生成等方向持续发力，推动全模态技术规模化落地 [8]