实测MiniMax M2.7:上能拆英伟达,下能演我爸妈
英伟达英伟达(US:NVDA) 36氪·2026-03-19 07:43

模型迭代与行业趋势 - 公司模型迭代速度显著加快,MiniMax M2.7在M2.5发布仅一个月后上线,期间跨越了春节假期[1] - 行业共识认为AI将向“递归式自我改进”发展,系统将以人类无法理解的速度学习,并重塑人类运作方式[1] - 当前行业工程路径具体化为:用模型生成数据、用模型做评测、让模型参与代码修改和实验流程[1] - 模型被置于可不断试错和反馈的循环系统中,模型既是执行者也是部分决策者,人类更多退居设定目标和边界的角色[1] 核心能力与Benchmark表现 - 新模型强调其“Agent Harness”能力,旨在将多人协作的研发流程压缩进一个可持续运行的循环,由模型承担更多环节[2] - 在工程执行类任务中已进入第一梯队,在SWE Bench Pro上的表现接近或超过部分一线模型[5] - 在VIBE-Pro端到端项目任务中同样处于第一梯队,具备从需求到交付的完整产出能力[5] - 在MM-ClawBench等多步骤长流程Agent测试中表现接近头部模型,表明其具备稳定的长流程执行能力[5] - 在更偏研究和复杂推理的任务(如MLE-Bench)上仍有进步空间,这类任务目前仍是头部模型的优势区间[6] 多角色交互与一致性测试 - 在模拟家族微信群聊的测试中,模型成功维持了多个角色的人格状态、角色关系,并实现了自然的互动碰撞[8][9][19] - 测试要求模型同时维持三个AI角色(父亲、母亲、弟弟)的独特说话方式、关注点及相互关系,并实现了高还原度的交互[8][9] - 对于不同角色,模型会分别调用,而非一次性生成所有对话,这要求模型具备同时处理多线程角色状态的能力[19] 自主智能体(Agent)开发能力 - 在Agent Harness测试框架下,模型使用提供的五个工具,成功完成了从零开发一个霓虹灯风格数字时钟的任务,过程流畅高效[22][24] - 在开发贪吃蛇游戏的复杂任务中,模型展示了自主规划、编码、检查、调试和交付的完整工作流,共消耗25882个token,在5轮内完成[25][27][28][29][30][32][34] - 开发过程并非一帆风顺,模型在早期迭代中曾出现工具调用格式错误,但能自我纠正,这表明其具备自主调试和迭代能力[36] - 从简单任务到复杂任务的测试,展现了模型作为智能体高效执行和自主调试的两面性,这正对应其核心的Agent Harness能力[36] 复杂数据处理与专业内容生成 - 在基于英伟达FY2026财报(总营收$2,159亿,同比增长+65.5%)的分析任务中,模型生成了投行风格的深度研究报告、交互式财务仪表盘和12页演示文稿[39][40][41][42] - 模型展示了对复杂金融数据的理解能力、对多种输出格式(报告、仪表盘、PPT)的驾驭能力,以及生成专业级可视化内容的能力[43] - 该测试直接对应了官方宣传的复杂Office自动化能力,在金融分析场景下能输出接近专业水准的内容[43] 未来方向与生态建设 - 公司正在构建名为OpenRoom的Agent交互系统,将AI互动置于万物皆可互动的Web GUI空间,其原型项目已开源,且大部分代码由AI编写[44] - 该系统理念是“对话即驱动”,实现实时视觉反馈与场景交互,旨在探索人与Agent之间全新的交互方式[45] - 随着模型Agentic能力的提升和社区共建,该系统有望持续进化[45] - 评测整体感受表明,模型正从“问答工具”转变为可被嵌入系统持续运转的“搭档”,开始参与并推进完整流程,而不仅负责单点输出[45]

Nvidia-实测MiniMax M2.7:上能拆英伟达,下能演我爸妈 - Reportify