模型定位与核心能力 - 公司于2026年2月发布新一代旗舰模型M2.5,该模型经过海量真实环境强化学习训练,在编程、智能体工具使用、搜索及办公生产力等高价值经济任务领域达到行业领先水平 [2] - 在关键基准测试中,M2.5在SWE-Bench Verified测试得分为80.2%,在Multi-SWE-Bench中得分为51.3%,在BrowseComp(含上下文管理)中得分为76.3% [2] - M2.5是M系列模型的最新迭代,延续了M2.1的核心技术框架,并非全新范式,而是在其基础上的工程优化和能力增强 [4] 技术框架分析 - M2.5采用与M2相同的混合专家模型架构,总参数规模达2300亿,推理时仅激活100亿参数,延续了“极端稀疏性”设计哲学 [5] - 模型延续了名为Forge的智能体原生强化学习框架,该框架通过引入中间层解耦训练-推理引擎与智能体,以优化模型在不同智能体间的泛化能力 [6] - Forge框架采用异步调度策略和树状结构合并策略处理训练样本,据称实现了约40倍的训练加速 [8] - 算法层面继续采用CISPO算法以确保训练稳定性,并引入过程奖励机制和基于任务完成时间的奖励设计,以深度对齐用户体验 [9] - 训练数据覆盖超过10种编程语言和超过20万个真实场景,并在办公场景中深度整合了金融、法律等领域的专家知识 [10] - 公司构建了内部Cowork Agent评估框架,通过成对比较评估交付物质量和智能体轨迹专业性,并监控token消耗以估算效率提升 [10] 性能表现与基准测试 - 在编程能力方面,M2.5在SWE-Bench Verified测试得分80.2%,在Multi-SWE-Bench测试得分51.3% [11] - M2.5展现出优秀的跨分布泛化能力,在使用不同编程智能体harness测试时,在Droid harness上得分79.7%(优于Claude Opus 4.6的78.9%),在OpenCode harness上得分76.1%(优于Opus 4.6的75.9%) [13] - 模型具备“架构师思维”能力,能在编写代码前主动从架构师视角分解和规划项目,这一特性在训练中自然涌现 [13] - 在搜索与工具调用方面,M2.5在BrowseComp和Wide Search等基准测试中实现行业领先性能,并在面对不熟悉脚手架时表现更稳定 [14] - 在真实世界专业搜索任务评估基准RISE中,M2.5表现优异,擅长专家级搜索任务 [16] - M2.5展现出更优的问题解决能力,在多个智能体任务中以更少的搜索轮次实现更好结果,相比M2.1节省约20%的搜索轮次 [16] - 在办公生产力场景中,M2.5经过训练能产生真正可交付的输出成果,在Word、PowerPoint和Excel金融建模等场景能力显著提升,与主流模型对标测试平均胜率达59.0% [17] 成本、效率与定价策略 - M2.5原生支持的推理速度达100 tokens/秒,接近其他前沿模型的两倍 [18] - 在运行SWE-Bench Verified时,M2.5平均每个任务消耗352万tokens,端到端运行时间从M2.1的平均31.3分钟减少到22.8分钟,提升37%,速度与Claude Opus 4.6基本持平,而单个任务总成本仅为后者的10% [18] - M2.5系列包含M2.5和M2.5-Lightning两个版本,能力相同但速度不同 [19] - M2.5-Lightning稳定吞吐量达100 tokens/秒,价格为每百万输入tokens 0.3美元,每百万输出tokens 2.4美元;M2.5吞吐量为50 tokens/秒,价格减半 [19] - 根据输出价格计算,M2.5的成本是Claude Opus、Gemini 3 Pro和GPT-5的十分之一到二十分之一 [19] - 以100 tokens/秒速率连续运行一小时M2.5成本仅为1美元;以50 TPS速率运行,成本降至0.3美元;用户能以每年10,000美元价格让四个M2.5实例全年不间断运行 [19] - 公司表示,M2.5被定位为首款让用户无需担忧成本的前沿模型 [19] 市场竞争与行业动态 - 2026年2月12日,智谱发布新一代旗舰模型GLM-5,参数规模达744B,在编程任务上实现对Claude Opus 4.5的对齐,擅长复杂系统工程与长程智能体任务 [20] - 智谱同期宣布对GLM Coding Plan套餐价格进行结构性调整,整体涨幅自30%起,这是国产大模型近期首次大幅提价 [20] - GLM-5海外版价格涨幅更高:Coding plan订阅价格提高30%-60%,API调用价格提升67%-100% [20] - 智谱在OpenRouter上线名为Pony Alpha的测试版本,截止发稿,近五日来其股价已上涨114.88% [20] - 相比之下,MiniMax M2.5发布相对低调,但公司股价在过去五天亦有34.69%的涨幅 [21] 应用生态与落地情况 - M2.5已全面部署在MiniMax Agent中,提供最佳智能体体验 [24] - 公司将核心信息处理能力提炼为标准化的Office Skills,深度集成在MiniMax Agent中,在MAX模式下能根据文件类型自动加载对应技能以提升任务输出质量 [24] - 用户可将Office Skills与行业专业知识结合,创建针对特定任务场景的可复用Expert,截至目前用户已在MiniMax Agent上构建了超过10,000个Expert,且数字仍在快速增长 [24] - 公司自身也构建了多套针对办公、金融、编程等高频场景深度优化的即用型Expert套件 [24] - 在公司内部日常运营中,M2.5自主完成了30%的整体任务,涵盖研发、产品、销售、人力资源和财务等部门;在编程场景中,M2.5生成的代码占新增提交代码的80% [24]
MiniMax M2.5正式发布,带动股价上涨35%
36氪·2026-02-13 12:15