12小时登顶OpenAI MLE-bench!上海AI Lab开源算法进化框架MLEvolve
量子位·2026-03-10 12:05

文章核心观点 - 上海人工智能实验室推出的MLEvolve系统,是一个基于渐进式蒙特卡洛图搜索与多智能体协作的自进化机器学习框架,在MLE-bench基准测试中,仅用12小时运算预算便以61.33%的奖牌率登顶榜首,标志着AI从代码生成向自主算法设计能力迈进的关键一步 [1][4][21] 技术架构与核心模块 - MLEvolve框架由四大核心模块协同驱动:渐进式蒙特卡洛图搜索(搜索引擎)、经验驱动的全局记忆层(知识中枢)、多模式自适应代码生成(执行引擎)以及多智能体专业化分工(协作体系)[5][7][8] - 系统构建了“规划→构建→评估→进化”的完整自进化闭环,旨在让智能体在有限预算内通过持续搜索、验证与精进来不断逼近更优解 [5][7] 核心技术创新:渐进式蒙特卡洛图搜索 - 采用渐进式蒙特卡洛图搜索替代传统树搜索,通过三大机制实现搜索能力质变:时间感知的探索-利用切换、跨分支融合与轨迹进化、多层级停滞检测 [8][9][11][12][13] - 该技术实现了从“线性树”到“图式网络”的搜索革命,允许不同搜索路径之间进行经验互通与优势聚合,从而在复杂ML任务中实现高效探索 [8][9][12] 核心技术创新:经验驱动的全局记忆层 - 系统通过全局记忆层记录每一次尝试的结构化信息(规划方案、完整代码、性能指标、成败标签),使智能体能够从历史经验中学习 [8][14] - 记忆检索采用BM25文本匹配与FAISS向量语义搜索的混合策略,不同类型的智能体(如改进Agent、草稿Agent、融合Agent)会差异化地查询记忆,以优化经验复用效率与探索多样性 [14] 核心技术创新:多模式代码生成与多智能体协作 - 采用“规划-编码”解耦的工作流,代码生成环节支持三种自适应模式:全量生成模式(快速建立初始解)、分步合成模式(细粒度优化长链路逻辑)、增量修补模式(局部精准迭代以提升效率)[15][17] - 系统构建了一支覆盖ML工程全生命周期的多智能体团队,包含八大专业Agent,系统会根据搜索状态自动调度最合适的智能体进行专业化分工与协作 [8][17] 性能表现与实验结果 - 在MLE-bench基准(涵盖75道Kaggle竞赛题)上,MLEvolve以61.33% ± 1.33%的奖牌率超越所有24小时基线方法,登顶榜单第一 [1][4] - 系统仅使用12小时运算预算,效率是其他顶尖系统24小时标准的两倍,并在高难度竞赛中取得了42.22%的最佳成绩,展现了强大的深度优化与泛化能力 [1][4][19] 平台定位与行业意义 - MLEvolve是上海人工智能实验室“书生”科学发现平台的核心技术之一,作为InternAgent 1.5的验证子系统(方案优化引擎),其图增强搜索与经验驱动记忆机制支撑了从“单点试错”到“全局协同”的探索范式升级 [2][19] - 该系统的成功证明了通过图结构搜索、经验驱动记忆与多智能体协作的融合,AI可以在算法设计任务中实现自主探索与持续进化,这是创新能力的重要体现,也是为科学研究创造新工具的有效路径 [2][21] - 该搜索-记忆-协作范式具有广泛的可迁移性,为从算法设计、数据科学到科研自动化等方案优化类任务提供了通用的进化框架 [20][21]

12小时登顶OpenAI MLE-bench!上海AI Lab开源算法进化框架MLEvolve - Reportify