MiniMax M2.5正式发布，带动股价上涨35%

模型定位与核心能力 - 公司于2026年2月发布新一代旗舰模型M2.5，该模型经过海量真实环境强化学习训练，在编程、智能体工具使用、搜索及办公生产力等高价值经济任务领域达到行业领先水平 [2] - 在关键基准测试中，M2.5在SWE-Bench Verified测试得分为80.2%，在Multi-SWE-Bench中得分为51.3%，在BrowseComp（含上下文管理）中得分为76.3% [2] - M2.5是M系列模型的最新迭代，延续了M2.1的核心技术框架，并非全新范式，而是在其基础上的工程优化和能力增强 [4] 技术框架分析 - M2.5采用与M2相同的混合专家模型架构，总参数规模达2300亿，推理时仅激活100亿参数，延续了“极端稀疏性”设计哲学 [5] - 模型延续了名为Forge的智能体原生强化学习框架，该框架通过引入中间层解耦训练-推理引擎与智能体，以优化模型在不同智能体间的泛化能力 [6] - Forge框架采用异步调度策略和树状结构合并策略处理训练样本，据称实现了约40倍的训练加速 [8] - 算法层面继续采用CISPO算法以确保训练稳定性，并引入过程奖励机制和基于任务完成时间的奖励设计，以深度对齐用户体验 [9] - 训练数据覆盖超过10种编程语言和超过20万个真实场景，并在办公场景中深度整合了金融、法律等领域的专家知识 [10] - 公司构建了内部Cowork Agent评估框架，通过成对比较评估交付物质量和智能体轨迹专业性，并监控token消耗以估算效率提升 [10] 性能表现与基准测试 - 在编程能力方面，M2.5在SWE-Bench Verified测试得分80.2%，在Multi-SWE-Bench测试得分51.3% [11] - M2.5展现出优秀的跨分布泛化能力，在使用不同编程智能体harness测试时，在Droid harness上得分79.7%（优于Claude Opus 4.6的78.9%），在OpenCode harness上得分76.1%（优于Opus 4.6的75.9%） [13] - 模型具备“架构师思维”能力，能在编写代码前主动从架构师视角分解和规划项目，这一特性在训练中自然涌现 [13] - 在搜索与工具调用方面，M2.5在BrowseComp和Wide Search等基准测试中实现行业领先性能，并在面对不熟悉脚手架时表现更稳定 [14] - 在真实世界专业搜索任务评估基准RISE中，M2.5表现优异，擅长专家级搜索任务 [16] - M2.5展现出更优的问题解决能力，在多个智能体任务中以更少的搜索轮次实现更好结果，相比M2.1节省约20%的搜索轮次 [16] - 在办公生产力场景中，M2.5经过训练能产生真正可交付的输出成果，在Word、PowerPoint和Excel金融建模等场景能力显著提升，与主流模型对标测试平均胜率达59.0% [17] 成本、效率与定价策略 - M2.5原生支持的推理速度达100 tokens/秒，接近其他前沿模型的两倍 [18] - 在运行SWE-Bench Verified时，M2.5平均每个任务消耗352万tokens，端到端运行时间从M2.1的平均31.3分钟减少到22.8分钟，提升37%，速度与Claude Opus 4.6基本持平，而单个任务总成本仅为后者的10% [18] - M2.5系列包含M2.5和M2.5-Lightning两个版本，能力相同但速度不同 [19] - M2.5-Lightning稳定吞吐量达100 tokens/秒，价格为每百万输入tokens 0.3美元，每百万输出tokens 2.4美元；M2.5吞吐量为50 tokens/秒，价格减半 [19] - 根据输出价格计算，M2.5的成本是Claude Opus、Gemini 3 Pro和GPT-5的十分之一到二十分之一 [19] - 以100 tokens/秒速率连续运行一小时M2.5成本仅为1美元；以50 TPS速率运行，成本降至0.3美元；用户能以每年10,000美元价格让四个M2.5实例全年不间断运行 [19] - 公司表示，M2.5被定位为首款让用户无需担忧成本的前沿模型 [19] 市场竞争与行业动态 - 2026年2月12日，智谱发布新一代旗舰模型GLM-5，参数规模达744B，在编程任务上实现对Claude Opus 4.5的对齐，擅长复杂系统工程与长程智能体任务 [20] - 智谱同期宣布对GLM Coding Plan套餐价格进行结构性调整，整体涨幅自30%起，这是国产大模型近期首次大幅提价 [20] - GLM-5海外版价格涨幅更高：Coding plan订阅价格提高30%-60%，API调用价格提升67%-100% [20] - 智谱在OpenRouter上线名为Pony Alpha的测试版本，截止发稿，近五日来其股价已上涨114.88% [20] - 相比之下，MiniMax M2.5发布相对低调，但公司股价在过去五天亦有34.69%的涨幅 [21] 应用生态与落地情况 - M2.5已全面部署在MiniMax Agent中，提供最佳智能体体验 [24] - 公司将核心信息处理能力提炼为标准化的Office Skills，深度集成在MiniMax Agent中，在MAX模式下能根据文件类型自动加载对应技能以提升任务输出质量 [24] - 用户可将Office Skills与行业专业知识结合，创建针对特定任务场景的可复用Expert，截至目前用户已在MiniMax Agent上构建了超过10,000个Expert，且数字仍在快速增长 [24] - 公司自身也构建了多套针对办公、金融、编程等高频场景深度优化的即用型Expert套件 [24] - 在公司内部日常运营中，M2.5自主完成了30%的整体任务，涵盖研发、产品、销售、人力资源和财务等部门；在编程场景中，M2.5生成的代码占新增提交代码的80% [24]