大模型自我进化
搜索文档
全行业都在忙着“吃虾”,MiniMax M2.7已经让虾自己拿起筷子了
量子位· 2026-03-18 19:32
MiniMax M2.7模型发布与核心能力跃升 - 公司于M2.5发布仅一个月后,再次重磅推出全新的M2.7模型 [1] - 新模型的推理、工程能力及处理复杂任务与多智能体协作能力显著增强 [2][3] 核心性能亮点与基准测试表现 - 在指令遵循与多智能体协作方面表现稳健,在包含40个复杂技能的场景下保持97%的遵循率,在MM-Claw“龙虾测试”中正确率达62.7%,直逼Claude Sonnet 4.6 [8] - 代码能力从生成拓展至高阶领域,在SWE-Pro测试中以56.22%的正确率追平GPT-5.3-Codex [10][11] - 在办公场景处理能力上,于GDPval-AA评测中ELO评分位列开源第一,并超越GPT-5.3 [13] - 原生支持十种语言,并在角色扮演场景中强化了人设稳定性与对话情商 [16] 多智能体协作与复杂任务执行能力 - 模型原生支持多智能体协作,无需外部框架即可组建Agent团队,能稳定锚定身份并自主决策,协作完成长流程任务 [8] - 实测中成功统筹1个主持人和5个玩家Agent,完成“谁是卧底”游戏的全套搭建,包括撰写独立人设文件、开发后台程序与前端网页 [20][21][23] - 六个原生Agent能基于规则在游戏房间内进行顺畅交流,并完全自主地跑通整个游戏流程 [27][28] 工程与系统故障排查实战能力 - 在模拟真实生产环境的SRE级故障排查测试中,能迅速从复杂日志中精准定位导致数据库CPU飙升的根本原因 [30][31] - 提供的紧急恢复脚本专业地使用了PostgreSQL的CONCURRENTLY语法执行非阻塞建库索引,严格遵守生产环境“严禁锁表”的安全红线 [32][33] - 能生成完整、规范的数据库迁移文件代码,可直接用于提交合并请求 [35] 技术底层进化:自我构建与迭代能力 - 模型具备了自我构建复杂Agent Harness(工具箱/操作台)的能力,不再局限于使用人类提供的工具,而是能够自己创造工具 [39][41] - 在强化学习实验中,给定初始想法后,模型能自主运行实验、监控状态、查看日志、排查故障、修改代码并完成提交合并请求和冒烟测试 [42][43] - 模型能主动迭代优化Harness本身,在内部测试中通过自主试错探索优化路径,使模型在内部评测集上的效果提升30% [45] - 模型具备自主训练和升级机器学习模型的能力,通过短时记忆、自反馈和自优化机制,在MLE Lite的22道高难度竞赛题中,于24小时内自主优化ML模型并取得9金5银1铜的成绩 [47][48] 行业意义与战略定位 - 行业普遍在适配OpenClaw等开源框架以追赶热度,但公司已切入让模型自主造工具、搞研发的新阶段,使模型成为自身研发链条的一环 [49][50][51] - 这种让模型具备主动进化、自我迭代的能力,被认为是决定下一代大模型核心竞争力的关键分水岭 [52] - 具备此能力的M2.7模型,标志着公司已抢先开启模型自我迭代的新纪元 [53]
6666!NuerIPS满分论文来了
量子位· 2025-11-11 19:11
文章核心观点 - 一篇来自清华大学和上海交通大学的研究论文在NeurIPS 2025上获得四位审稿人一致给出的满分6分,成为该会议唯一的满分论文[1] - 论文的核心结论挑战了行业普遍认知,指出真正决定大语言模型推理能力上限的是基座模型本身,而非强化学习训练方法[1] - 研究结果表明,知识蒸馏方法比强化学习更有潜力实现大模型能力的自我进化,这对当前主流的RLVR技术路线提出了重要质疑[1][12] 研究方法与实验设计 - 研究团队采用pass@k作为关键评估指标,该指标通过多轮采样揭示模型的真实推理边界,能更精准判断模型是否"有能力"解决问题[14][15] - 实验覆盖大语言模型推理能力的三大典型应用领域:数学推理、代码生成和视觉推理,并搭配GSM8K、MATH500、LiveCodeBench、MathVista等权威基准数据集[17] - 模型选择以主流大语言模型家族为基础,包括Qwen2.5系列和LLaMA-3.1等,构建了"基础模型vs RLVR训练模型"的多组平行对照[18] - 针对每个测试样本,让基础模型和RLVR模型进行不同次数的采样,k值从1逐步提升至1024,记录每次采样中"至少出现一个正确结果"的概率[20] 关键研究发现 - RLVR主要是在"强化"底模已有的推理路径,而不是"发现"底模没有的新路径[10] - RL训练后的模型在低采样次数下表现更好,但随着采样次数增加,底模反而能超过RL模型,说明底模隐藏的推理能力被低估了[10] - 多种RL算法在提升采样效率方面差异不大,且与"理论上底模最大能力"相比仍有明显差距[10] - 蒸馏方法更有可能"扩展"模型的推理能力范围,因为其接收来自教师模型的新推理模式,而RLVR更受限于底模[10] 研究团队背景 - 研究团队由8位研究人员组成,其中7位来自清华大学LeapLab,1位来自上海交通大学[24] - 项目负责人Yang Yue是清华大学自动化系四年级博士生,研究方向为强化学习、世界模型和多模态大模型[25] - 通讯作者Gao Huang是清华大学自动化系副教授、博士生导师,LeapLab负责人,以提出经典卷积架构模型DenseNet而闻名[31][32]