模型发布与核心突破 - 公司推出最新迭代的M2.5系列模型,在保持行业领先性能的同时,大幅降低了推理成本,旨在解决复杂智能体应用经济上不可行的痛点 [3] - M2.5模型宣称在编程、工具调用及办公场景中已达到或刷新了行业SOTA水平 [3] 成本与价格优势 - M2.5模型在每秒输出50个token的版本下,价格仅为Claude Opus、Gemini 3 Pro以及GPT-5等主流模型的1/10至1/20 [2][3] - 在每秒输出100个token的高速运行环境下,M2.5连续工作一小时的成本仅需1美元,若降至50 token/秒,成本进一步下探至0.3美元 [3] - 1万美元的预算足以支撑4个智能体连续工作一年,极大地降低了构建和运营大规模智能体集群的门槛 [3] - 模型提供100 TPS的推理速度,约为当前主流模型的两倍 [7] 性能表现 - M2.5在核心编程测试中表现强劲,并在多语言任务Multi-SWE-Bench上取得第一,整体水平比肩Claude Opus系列 [2][4] - 在SWE-Bench Verified测试中,M2.5完成任务的速度较上一代M2.1提升了37%,端到端运行时间缩短至22.8分钟,与Claude Opus 4.6持平 [2][4] - 在SWE-Bench Verified评测中,M2.5平均每个任务消耗3.52M token,低于M2.1的3.72M [9] - 在BrowseComp、Wide Search和RISE等多项任务中,M2.5相较于前代节省了约20%的轮次消耗 [16] 编程能力 - M2.5不仅关注代码生成,更强调系统设计能力,演化出了原生的规格说明书行为,能够以架构师视角在编码前主动拆解功能、结构和UI设计 [11] - 该模型在超过10种编程语言和数十万个真实环境中进行了训练 [12] - 测试显示,M2.5能胜任从系统设计、开发到功能迭代及最终代码审查的全流程 [13] - 在编程场景中,M2.5生成的代码已占据公司内部新提交代码的80% [2][4] - 在Droid编程脚手架上的通过率为79.7%,在OpenCode上为76.1%,均优于上一代模型及Claude Opus 4.6 [14] 智能体应用与内部验证 - 公司内部30%的整体任务已由M2.5自主完成,覆盖研发、产品、销售等核心职能 [2][4] - 公司内部已有30%任务由AI自主完成 [2] - 在内部构建的Cowork Agent评测框架中,M2.5在与主流模型的两两对比中取得了59.0%的平均胜率,能够输出符合行业标准的Word研报、PPT及复杂的Excel财务模型 [18] 技术架构 - M2.5性能提升的核心驱动力来自于大规模强化学习,公司采用了名为Forge的原生智能体强化学习框架 [23] - 工程团队优化了异步调度策略和树状合并训练样本策略,实现了约40倍的训练加速,验证了模型能力随算力和任务数增加呈现近线性提升的趋势 [23] 产品部署 - 目前,M2.5已在公司智能体、API及Coding Plan中全量上线,其模型权重也将在HuggingFace开源,支持本地部署 [25]
MiniMax发布M2.5模型:1美元运行1小时,价格仅为GPT-5的1/20,性能比肩Claude Opus
硬AI·2026-02-13 21:25