Nvidia-实测MiniMax M2.7：上能拆英伟达，下能演我爸妈

模型迭代与行业趋势 - 公司模型迭代速度显著加快，MiniMax M2.7在M2.5发布仅一个月后上线，期间跨越了春节假期[1] - 行业共识认为AI将向“递归式自我改进”发展，系统将以人类无法理解的速度学习，并重塑人类运作方式[1] - 当前行业工程路径具体化为：用模型生成数据、用模型做评测、让模型参与代码修改和实验流程[1] - 模型被置于可不断试错和反馈的循环系统中，模型既是执行者也是部分决策者，人类更多退居设定目标和边界的角色[1] 核心能力与Benchmark表现 - 新模型强调其“Agent Harness”能力，旨在将多人协作的研发流程压缩进一个可持续运行的循环，由模型承担更多环节[2] - 在工程执行类任务中已进入第一梯队，在SWE Bench Pro上的表现接近或超过部分一线模型[5] - 在VIBE-Pro端到端项目任务中同样处于第一梯队，具备从需求到交付的完整产出能力[5] - 在MM-ClawBench等多步骤长流程Agent测试中表现接近头部模型，表明其具备稳定的长流程执行能力[5] - 在更偏研究和复杂推理的任务（如MLE-Bench）上仍有进步空间，这类任务目前仍是头部模型的优势区间[6] 多角色交互与一致性测试 - 在模拟家族微信群聊的测试中，模型成功维持了多个角色的人格状态、角色关系，并实现了自然的互动碰撞[8][9][19] - 测试要求模型同时维持三个AI角色（父亲、母亲、弟弟）的独特说话方式、关注点及相互关系，并实现了高还原度的交互[8][9] - 对于不同角色，模型会分别调用，而非一次性生成所有对话，这要求模型具备同时处理多线程角色状态的能力[19] 自主智能体(Agent)开发能力 - 在Agent Harness测试框架下，模型使用提供的五个工具，成功完成了从零开发一个霓虹灯风格数字时钟的任务，过程流畅高效[22][24] - 在开发贪吃蛇游戏的复杂任务中，模型展示了自主规划、编码、检查、调试和交付的完整工作流，共消耗25882个token，在5轮内完成[25][27][28][29][30][32][34] - 开发过程并非一帆风顺，模型在早期迭代中曾出现工具调用格式错误，但能自我纠正，这表明其具备自主调试和迭代能力[36] - 从简单任务到复杂任务的测试，展现了模型作为智能体高效执行和自主调试的两面性，这正对应其核心的Agent Harness能力[36] 复杂数据处理与专业内容生成 - 在基于英伟达FY2026财报（总营收$2,159亿，同比增长+65.5%）的分析任务中，模型生成了投行风格的深度研究报告、交互式财务仪表盘和12页演示文稿[39][40][41][42] - 模型展示了对复杂金融数据的理解能力、对多种输出格式（报告、仪表盘、PPT）的驾驭能力，以及生成专业级可视化内容的能力[43] - 该测试直接对应了官方宣传的复杂Office自动化能力，在金融分析场景下能输出接近专业水准的内容[43] 未来方向与生态建设 - 公司正在构建名为OpenRoom的Agent交互系统，将AI互动置于万物皆可互动的Web GUI空间，其原型项目已开源，且大部分代码由AI编写[44] - 该系统理念是“对话即驱动”，实现实时视觉反馈与场景交互，旨在探索人与Agent之间全新的交互方式[45] - 随着模型Agentic能力的提升和社区共建，该系统有望持续进化[45] - 评测整体感受表明，模型正从“问答工具”转变为可被嵌入系统持续运转的“搭档”，开始参与并推进完整流程，而不仅负责单点输出[45]