模型性能与排名 - 在第三方评测机构Artificial Analysis的测试中,Minimax M2以61分获得开源模型第一,总排名第五 [1][7] - 该测试使用了10个热门数据集,包括MMLU Pro、GPQA Diamond、人类最后测试、LiveCodeBench等 [7] - 在AIME25测试中得分为78,在MMLU-Pro测试中得分为82,在GPQA-Diamond测试中得分为78 [8] 核心技术特点 - Minimax M2是一个稀疏度较高的MoE模型,总参数量230B,激活参数量仅有10B [4] - 模型采用了交错的思维格式,使其能够规划和验证跨多个对话的操作步骤,这对Agent推理至关重要 [6] - 模型在预训练阶段未采用滑动窗口注意力或线性注意力,而是使用全注意力机制,以避免性能损失 [40][45] 成本与效率优势 - 模型推理速度是Claude 3.5 Sonnet的两倍,API价格仅为Claude 3.5 Sonnet的8% [3] - 定价为0.3美元/2.1人民币每百万输入Token,1.2美元/8.4人民币每百万输出Token [8] - 在线推理服务的速度可达每秒100 Token [12] 应用与开发生态 - 模型专为智能体和编程而生,表现出对复杂、长链工具调用任务的出色规划和稳定执行能力 [3][6] - 支持Shell、浏览器、Python代码解释器和各种MCP工具的调用 [6] - Minimax已将M2部署到Agent平台限时免费使用,平台上展示了许多Agent的现成作品,如网页应用、游戏和PPT生成等 [23][29][30][32][34] 市场定位与竞争对比 - 公司表示,智能水平、速度和成本在过去被视为“不可能三角”,但随着M2的出世,这个三角被打破 [3] - 在工具使用和深度搜索能力上不逊于海外顶尖模型,编程能力在国内名列前茅 [6] - 相比于Claude Sonnet 4.5、GLM 4.6、Kimi-K2以及DeepSeek V3.2等模型,M2具有极高的Win+Tie比例,同时成本非常低廉 [14]
全球开源大模型杭州霸榜被终结,上海Minimax M2发布即爆单,百万Tokens仅需8元人民币
36氪·2025-10-28 10:12