大模型自我进化 - 财报，业绩电话会，研报，新闻

大模型自我进化

搜索文档

量子位· 2026-03-18 19:32

MiniMax M2.7模型发布与核心能力跃升 - 公司于M2.5发布仅一个月后，再次重磅推出全新的M2.7模型 [1] - 新模型的推理、工程能力及处理复杂任务与多智能体协作能力显著增强 [2][3] 核心性能亮点与基准测试表现 - 在指令遵循与多智能体协作方面表现稳健，在包含40个复杂技能的场景下保持97%的遵循率，在MM-Claw“龙虾测试”中正确率达62.7%，直逼Claude Sonnet 4.6 [8] - 代码能力从生成拓展至高阶领域，在SWE-Pro测试中以56.22%的正确率追平GPT-5.3-Codex [10][11] - 在办公场景处理能力上，于GDPval-AA评测中ELO评分位列开源第一，并超越GPT-5.3 [13] - 原生支持十种语言，并在角色扮演场景中强化了人设稳定性与对话情商 [16] 多智能体协作与复杂任务执行能力 - 模型原生支持多智能体协作，无需外部框架即可组建Agent团队，能稳定锚定身份并自主决策，协作完成长流程任务 [8] - 实测中成功统筹1个主持人和5个玩家Agent，完成“谁是卧底”游戏的全套搭建，包括撰写独立人设文件、开发后台程序与前端网页 [20][21][23] - 六个原生Agent能基于规则在游戏房间内进行顺畅交流，并完全自主地跑通整个游戏流程 [27][28] 工程与系统故障排查实战能力 - 在模拟真实生产环境的SRE级故障排查测试中，能迅速从复杂日志中精准定位导致数据库CPU飙升的根本原因 [30][31] - 提供的紧急恢复脚本专业地使用了PostgreSQL的CONCURRENTLY语法执行非阻塞建库索引，严格遵守生产环境“严禁锁表”的安全红线 [32][33] - 能生成完整、规范的数据库迁移文件代码，可直接用于提交合并请求 [35] 技术底层进化：自我构建与迭代能力 - 模型具备了自我构建复杂Agent Harness（工具箱/操作台）的能力，不再局限于使用人类提供的工具，而是能够自己创造工具 [39][41] - 在强化学习实验中，给定初始想法后，模型能自主运行实验、监控状态、查看日志、排查故障、修改代码并完成提交合并请求和冒烟测试 [42][43] - 模型能主动迭代优化Harness本身，在内部测试中通过自主试错探索优化路径，使模型在内部评测集上的效果提升30% [45] - 模型具备自主训练和升级机器学习模型的能力，通过短时记忆、自反馈和自优化机制，在MLE Lite的22道高难度竞赛题中，于24小时内自主优化ML模型并取得9金5银1铜的成绩 [47][48] 行业意义与战略定位 - 行业普遍在适配OpenClaw等开源框架以追赶热度，但公司已切入让模型自主造工具、搞研发的新阶段，使模型成为自身研发链条的一环 [49][50][51] - 这种让模型具备主动进化、自我迭代的能力，被认为是决定下一代大模型核心竞争力的关键分水岭 [52] - 具备此能力的M2.7模型，标志着公司已抢先开启模型自我迭代的新纪元 [53]

大模型自我进化

Artificial Intelligence

MiniMax M2.7

OpenClaw

大模型自我进化

Artificial Intelligence

MiniMax M2.7

OpenClaw

6666！NuerIPS满分论文来了

量子位· 2025-11-11 19:11

文章核心观点 - 一篇来自清华大学和上海交通大学的研究论文在NeurIPS 2025上获得四位审稿人一致给出的满分6分，成为该会议唯一的满分论文[1] - 论文的核心结论挑战了行业普遍认知，指出真正决定大语言模型推理能力上限的是基座模型本身，而非强化学习训练方法[1] - 研究结果表明，知识蒸馏方法比强化学习更有潜力实现大模型能力的自我进化，这对当前主流的RLVR技术路线提出了重要质疑[1][12] 研究方法与实验设计 - 研究团队采用pass@k作为关键评估指标，该指标通过多轮采样揭示模型的真实推理边界，能更精准判断模型是否"有能力"解决问题[14][15] - 实验覆盖大语言模型推理能力的三大典型应用领域：数学推理、代码生成和视觉推理，并搭配GSM8K、MATH500、LiveCodeBench、MathVista等权威基准数据集[17] - 模型选择以主流大语言模型家族为基础，包括Qwen2.5系列和LLaMA-3.1等，构建了"基础模型vs RLVR训练模型"的多组平行对照[18] - 针对每个测试样本，让基础模型和RLVR模型进行不同次数的采样，k值从1逐步提升至1024，记录每次采样中"至少出现一个正确结果"的概率[20] 关键研究发现 - RLVR主要是在"强化"底模已有的推理路径，而不是"发现"底模没有的新路径[10] - RL训练后的模型在低采样次数下表现更好，但随着采样次数增加，底模反而能超过RL模型，说明底模隐藏的推理能力被低估了[10] - 多种RL算法在提升采样效率方面差异不大，且与"理论上底模最大能力"相比仍有明显差距[10] - 蒸馏方法更有可能"扩展"模型的推理能力范围，因为其接收来自教师模型的新推理模式，而RLVR更受限于底模[10] 研究团队背景 - 研究团队由8位研究人员组成，其中7位来自清华大学LeapLab，1位来自上海交通大学[24] - 项目负责人Yang Yue是清华大学自动化系四年级博士生，研究方向为强化学习、世界模型和多模态大模型[25] - 通讯作者Gao Huang是清华大学自动化系副教授、博士生导师，LeapLab负责人，以提出经典卷积架构模型DenseNet而闻名[31][32]