全球开源大模型杭州霸榜被终结，上海Minimax M2发布即爆单，百万Tokens仅需8元人民币

模型性能与排名 - 在第三方评测机构Artificial Analysis的测试中，Minimax M2以61分获得开源模型第一，总排名第五[2][14] - 测试涵盖10个热门数据集，包括MMLU Pro、GPQA Diamond、人类最后测试、LiveCodeBench等[15] - 在具体数据集表现上，M2在AIME25得分为78，MMLU-Pro得分为82，GPQA-Diamond得分为78，LiveCodeBench得分为83[16] 技术架构与特点 - M2是一个稀疏度较高的MoE模型，总参数量230B，激活参数量仅为10B，网友称10B激活参数运行起来会非常快[9][10] - 模型采用交错的思维格式，使其能够规划和验证跨多个对话的操作步骤，这对Agent推理至关重要[11] - 技术细节显示M2使用全注意力机制，未采用滑动窗口注意力或Lightning Attention，因测试发现这些会造成性能损失[45][46][51] 成本与效率优势 - M2的推理速度是Claude 3.5 Sonnet的两倍，API价格仅为Claude 3.5 Sonnet的8%[5][6] - 具体定价为输入Token每百万0.3美元/2.1人民币，输出Token每百万1.2美元/8.4人民币[16] - 在线推理服务速度可达每秒100 Token，以速度衡量的性价比表现突出[20] 智能体与编程能力 - 模型专为智能体和编程而生，表现出对复杂、长链工具调用任务的出色规划和稳定执行能力[4][12] - 支持Shell、浏览器、Python代码解释器和各种MCP工具的调用，在工具使用和深度搜索方面不逊于海外顶尖模型[12] - 在智能体、全站开发和Terminal Use三项任务比拼中，M2相对于Claude Sonnet 4.5等模型有极高Win+Tie比例[23][24] 应用生态与平台部署 - Minimax已将M2部署到Agent平台并限时免费使用，免费期直到服务器扛不住为止[7][32] - 平台展示了许多Minimax Agent现成作品，包括网页应用、经典游戏复刻、在线五子棋平台等[35][36][38][40] - 网友实战案例显示，通过三轮反馈即可完成足球小游戏制作，应用效果非常不错[42][43]