Workflow
全球开源大模型杭州霸榜被终结,上海Minimax M2发布即爆单,百万Tokens仅需8元人民币
量子位·2025-10-28 09:18

模型性能与排名 - 在第三方评测机构Artificial Analysis的测试中,Minimax M2以61分获得开源模型第一,总排名第五[2][14] - 测试涵盖10个热门数据集,包括MMLU Pro、GPQA Diamond、人类最后测试、LiveCodeBench等[15] - 在具体数据集表现上,M2在AIME25得分为78,MMLU-Pro得分为82,GPQA-Diamond得分为78,LiveCodeBench得分为83[16] 技术架构与特点 - M2是一个稀疏度较高的MoE模型,总参数量230B,激活参数量仅为10B,网友称10B激活参数运行起来会非常快[9][10] - 模型采用交错的思维格式,使其能够规划和验证跨多个对话的操作步骤,这对Agent推理至关重要[11] - 技术细节显示M2使用全注意力机制,未采用滑动窗口注意力或Lightning Attention,因测试发现这些会造成性能损失[45][46][51] 成本与效率优势 - M2的推理速度是Claude 3.5 Sonnet的两倍,API价格仅为Claude 3.5 Sonnet的8%[5][6] - 具体定价为输入Token每百万0.3美元/2.1人民币,输出Token每百万1.2美元/8.4人民币[16] - 在线推理服务速度可达每秒100 Token,以速度衡量的性价比表现突出[20] 智能体与编程能力 - 模型专为智能体和编程而生,表现出对复杂、长链工具调用任务的出色规划和稳定执行能力[4][12] - 支持Shell、浏览器、Python代码解释器和各种MCP工具的调用,在工具使用和深度搜索方面不逊于海外顶尖模型[12] - 在智能体、全站开发和Terminal Use三项任务比拼中,M2相对于Claude Sonnet 4.5等模型有极高Win+Tie比例[23][24] 应用生态与平台部署 - Minimax已将M2部署到Agent平台并限时免费使用,免费期直到服务器扛不住为止[7][32] - 平台展示了许多Minimax Agent现成作品,包括网页应用、经典游戏复刻、在线五子棋平台等[35][36][38][40] - 网友实战案例显示,通过三轮反馈即可完成足球小游戏制作,应用效果非常不错[42][43]