Agent「记吃不记打」?华为诺亚&港中文发布SCOPE:Prompt自我进化,让HLE成功率翻倍
机器之心·2025-12-26 12:35

文章核心观点 - 华为诺亚方舟实验室与香港中文大学联合发布的SCOPE框架,旨在解决LLM Agent因使用静态Prompt而无法从执行错误中学习、导致“错误循环”的问题 [2] - SCOPE框架的核心思想是让Agent的Prompt在执行过程中不断进化,通过从执行轨迹中自动提炼指导规则,使Agent能够“从错误中学习”并实现自我优化 [4] - 该框架通过四个核心组件(指导规则合成、双流路由机制、记忆优化、视角驱动探索)实现Agent的在线自我优化,显著提升了任务成功率 [11][12][13][14][15][16] Agent的失败模式与SCOPE的解决方案 - Agent的两大失败模式:第一类是“纠正型失败”,即Agent无法利用错误日志中已包含的明确解决方案进行修正,甚至可能编造数据 [7];第二类是“增强型失败”,即Agent即使在没有明显错误的情况下,也会错过优化机会,例如固守单一关键词策略 [7] - 失败的根本原因:静态Prompt缺乏从执行反馈中学习的机制 [9] - SCOPE的解决方案:将上下文管理从手动工程任务转变为自动优化过程,利用Agent自身的执行轨迹作为学习信号 [11] SCOPE框架的核心组件 - 指导规则合成:当Agent遇到错误或完成子任务时,分析执行轨迹并合成候选指导规则,采用Best-of-N策略挑选最佳规则 [12];合成模式包括从错误中提取教训的“纠正型合成”和从成功模式中挖掘优化机会的“增强型合成”,后者占所有合成规则的61% [12] - 双流路由机制:将合成的规则通过分类器路由到两个记忆流:“战术记忆”存储任务特定规则,“战略记忆”存储跨任务通用规则,只有置信度高于0.85的通用规则才会被提升到战略记忆 [13][14] - 记忆优化:对战略记忆执行三步清理:冲突解决、冗余剪枝、整合归并,以优化规则库 [15] - 视角驱动探索:初始化多个由不同“视角”(如效率优先vs周全优先)引导的并行流,各自进化出不同的Prompt,以提高策略覆盖,测试时选择最佳结果 [16] 实验结果与性能提升 - 基准测试结果:在HLE、GAIA和DeepSearch三个基准上,SCOPE均显著提升了任务成功率 [19] - 在HLE基准上,任务成功率从基线Agent的14.23%提升至38.64% [19][20] - 在GAIA基准上,成功率从32.73%提升至56.97% [19][20] - 消融实验贡献:指导规则生成器提供+4.85%的初始提升,双流路由贡献+3.63%,Best-of-N选择贡献+3.03%,记忆优化贡献+1.82%,视角驱动探索带来+10.91%的提升 [20][21] - 领域特定提升:在知识密集型领域提升明显,例如生物/医学领域成功率从14.9%提升至43.2%,化学领域从14.1%提升至50.3% [22] SCOPE框架的有效性与特点 - 规则采纳验证:观察到“语言采纳”现象,即Agent在规则合成后直接引用相同措辞,行为变化在几秒内发生,证明了规则的实时影响力 [24] - 视角策略多样性:效率流与周全流的总体准确率相近(44.85% vs 46.06%),但两者解决的问题重合度仅为33.94%,约23%的问题只能被其中一个视角解决 [26][27];全局集成(Union)捕获了两种策略的优势,总准确率达56.97% [27] - 定性行为差异:面对同一HTTP 403错误,效率流学会“快速失败”并升级到搜索Agent,而周全流学会“寻找替代来源”如尝试Archive.org,展示了处理不同任务类型的能力 [28] - 框架主要特点:1) 步级别适应,允许从任务中途的失败中恢复 [32];2) 单Agent优化,每个Agent基于自身特定模式进化Prompt [32];3) 主动优化,61%的规则来自成功模式的增强型合成 [32] 开源实现与实用性 - 开源与可用性:SCOPE代码已在GitHub开源,提供了一套完整的实现框架 [33][34] - 实用特性:即插即用,只需在Agent执行循环中调用on_step_complete()接口即可为现有系统添加自我进化能力,无需修改原有架构 [35];模型无关,通过统一适配器接口支持OpenAI、Anthropic等100+模型提供商;轻量部署,可通过pip install scope-optimizer一键安装 [35]