全行业都在忙着“吃虾”,MiniMax M2.7已经让虾自己拿起筷子了
量子位·2026-03-18 19:32

MiniMax M2.7模型发布与核心能力跃升 - 公司于M2.5发布仅一个月后,再次重磅推出全新的M2.7模型 [1] - 新模型的推理、工程能力及处理复杂任务与多智能体协作能力显著增强 [2][3] 核心性能亮点与基准测试表现 - 在指令遵循与多智能体协作方面表现稳健,在包含40个复杂技能的场景下保持97%的遵循率,在MM-Claw“龙虾测试”中正确率达62.7%,直逼Claude Sonnet 4.6 [8] - 代码能力从生成拓展至高阶领域,在SWE-Pro测试中以56.22%的正确率追平GPT-5.3-Codex [10][11] - 在办公场景处理能力上,于GDPval-AA评测中ELO评分位列开源第一,并超越GPT-5.3 [13] - 原生支持十种语言,并在角色扮演场景中强化了人设稳定性与对话情商 [16] 多智能体协作与复杂任务执行能力 - 模型原生支持多智能体协作,无需外部框架即可组建Agent团队,能稳定锚定身份并自主决策,协作完成长流程任务 [8] - 实测中成功统筹1个主持人和5个玩家Agent,完成“谁是卧底”游戏的全套搭建,包括撰写独立人设文件、开发后台程序与前端网页 [20][21][23] - 六个原生Agent能基于规则在游戏房间内进行顺畅交流,并完全自主地跑通整个游戏流程 [27][28] 工程与系统故障排查实战能力 - 在模拟真实生产环境的SRE级故障排查测试中,能迅速从复杂日志中精准定位导致数据库CPU飙升的根本原因 [30][31] - 提供的紧急恢复脚本专业地使用了PostgreSQL的CONCURRENTLY语法执行非阻塞建库索引,严格遵守生产环境“严禁锁表”的安全红线 [32][33] - 能生成完整、规范的数据库迁移文件代码,可直接用于提交合并请求 [35] 技术底层进化:自我构建与迭代能力 - 模型具备了自我构建复杂Agent Harness(工具箱/操作台)的能力,不再局限于使用人类提供的工具,而是能够自己创造工具 [39][41] - 在强化学习实验中,给定初始想法后,模型能自主运行实验、监控状态、查看日志、排查故障、修改代码并完成提交合并请求和冒烟测试 [42][43] - 模型能主动迭代优化Harness本身,在内部测试中通过自主试错探索优化路径,使模型在内部评测集上的效果提升30% [45] - 模型具备自主训练和升级机器学习模型的能力,通过短时记忆、自反馈和自优化机制,在MLE Lite的22道高难度竞赛题中,于24小时内自主优化ML模型并取得9金5银1铜的成绩 [47][48] 行业意义与战略定位 - 行业普遍在适配OpenClaw等开源框架以追赶热度,但公司已切入让模型自主造工具、搞研发的新阶段,使模型成为自身研发链条的一环 [49][50][51] - 这种让模型具备主动进化、自我迭代的能力,被认为是决定下一代大模型核心竞争力的关键分水岭 [52] - 具备此能力的M2.7模型,标志着公司已抢先开启模型自我迭代的新纪元 [53]