MiniMax发布M2.5模型:1美元运行1小时,价格仅为GPT-5的1/20,性能比肩Claude Opus
华尔街见闻·2026-02-13 10:15

核心观点 - MiniMax推出M2.5系列模型,在保持行业领先性能的同时,大幅降低推理成本,旨在解决复杂Agent应用经济不可行的痛点,并在编程、工具调用及办公场景中达到或刷新行业SOTA水平 [1] 成本与定价优势 - 在每秒输出50个token的版本下,其价格仅为Claude Opus、Gemini 3 Pro以及GPT-5等主流模型的1/10至1/20 [1] - 在每秒输出100个token的高速运行环境下,M2.5连续工作一小时的成本仅需1美元,若降至50 token/秒,成本进一步下探至0.3美元 [1] - 1万美元的预算足以支撑4个Agent连续工作一年,极大降低了构建和运营大规模Agent集群的门槛 [1] - 模型提供100 TPS的推理速度,约为当前主流模型的两倍 [3] - 在SWE-Bench Verified评测中,M2.5平均每个任务消耗3.52M token,低于M2.1的3.72M [3] 性能表现与基准测试 - 在核心编程测试中表现强劲,并在多语言任务Multi-SWE-Bench上取得第一,整体水平比肩Claude Opus系列 [2] - 在SWE-Bench Verified测试中,完成任务的速度较上一代M2.1提升了37%,端到端运行时间缩短至22.8分钟,与Claude Opus 4.6持平 [2] - 在Droid上的通过率为79.7,在OpenCode上为76.1,均优于上一代模型及Claude Opus 4.6 [5] - 在BrowseComp、Wide Search和RISE等多项任务中,相较于前代节省了约20%的轮次消耗 [8] - 在内部构建的Cowork Agent评测框架中,M2.5在与主流模型的两两对比中取得了59.0%的平均胜率 [10] 编程与系统设计能力 - 模型演化出了原生的Spec行为,能够以架构师视角在编码前主动拆解功能、结构和UI设计 [4] - 该模型在超过10种编程语言和数十万个真实环境中进行了训练 [4] - 能胜任从系统设计、开发到功能迭代及最终代码审查的全流程 [4] - 公司内部30%的整体任务已由M2.5自主完成,覆盖研发、产品、销售等核心职能 [2] - 在编程场景中,M2.5生成的代码已占据新提交代码的80% [2] 办公与专业场景应用 - 通过与金融、法律等领域资深从业者合作,将行业隐性知识融入模型训练 [10] - 能够输出符合行业标准的Word研报、PPT及复杂的Excel财务模型,而非简单的文本生成 [10] 技术架构与训练 - 性能提升的核心驱动力来自于大规模强化学习 [14] - 采用了名为Forge的原生Agent RL框架,通过引入中间层解耦了底层训推引擎与Agent,支持任意脚手架的接入 [14] - 沿用了CISPO算法以保障MoE模型在大规模训练中的稳定性 [14] - 针对Agent长上下文带来的信用分配难题,引入了过程奖励机制 [14] - 工程团队优化了异步调度策略和树状合并训练样本策略,实现了约40倍的训练加速 [14] - 验证了模型能力随算力和任务数增加呈现近线性提升的趋势 [14] 产品发布与部署 - M2.5已在MiniMax Agent、API及Coding Plan中全量上线 [15] - 其模型权重也将在HuggingFace开源,支持本地部署 [15]