Agent「记吃不记打」？华为诺亚&港中文发布SCOPE：Prompt自我进化，让HLE成功率翻倍

文章核心观点 - 华为诺亚方舟实验室与香港中文大学联合发布的SCOPE框架，旨在解决LLM Agent因使用静态Prompt而无法从执行错误中学习、导致“错误循环”的问题 [2] - SCOPE框架的核心思想是让Agent的Prompt在执行过程中不断进化，通过从执行轨迹中自动提炼指导规则，使Agent能够“从错误中学习”并实现自我优化 [4] - 该框架通过四个核心组件（指导规则合成、双流路由机制、记忆优化、视角驱动探索）实现Agent的在线自我优化，显著提升了任务成功率 [11][12][13][14][15][16] Agent的失败模式与SCOPE的解决方案 - Agent的两大失败模式：第一类是“纠正型失败”，即Agent无法利用错误日志中已包含的明确解决方案进行修正，甚至可能编造数据 [7]；第二类是“增强型失败”，即Agent即使在没有明显错误的情况下，也会错过优化机会，例如固守单一关键词策略 [7] - 失败的根本原因：静态Prompt缺乏从执行反馈中学习的机制 [9] - SCOPE的解决方案：将上下文管理从手动工程任务转变为自动优化过程，利用Agent自身的执行轨迹作为学习信号 [11] SCOPE框架的核心组件 - 指导规则合成：当Agent遇到错误或完成子任务时，分析执行轨迹并合成候选指导规则，采用Best-of-N策略挑选最佳规则 [12]；合成模式包括从错误中提取教训的“纠正型合成”和从成功模式中挖掘优化机会的“增强型合成”，后者占所有合成规则的61% [12] - 双流路由机制：将合成的规则通过分类器路由到两个记忆流：“战术记忆”存储任务特定规则，“战略记忆”存储跨任务通用规则，只有置信度高于0.85的通用规则才会被提升到战略记忆 [13][14] - 记忆优化：对战略记忆执行三步清理：冲突解决、冗余剪枝、整合归并，以优化规则库 [15] - 视角驱动探索：初始化多个由不同“视角”（如效率优先vs周全优先）引导的并行流，各自进化出不同的Prompt，以提高策略覆盖，测试时选择最佳结果 [16] 实验结果与性能提升 - 基准测试结果：在HLE、GAIA和DeepSearch三个基准上，SCOPE均显著提升了任务成功率 [19] - 在HLE基准上，任务成功率从基线Agent的14.23%提升至38.64% [19][20] - 在GAIA基准上，成功率从32.73%提升至56.97% [19][20] - 消融实验贡献：指导规则生成器提供+4.85%的初始提升，双流路由贡献+3.63%，Best-of-N选择贡献+3.03%，记忆优化贡献+1.82%，视角驱动探索带来+10.91%的提升 [20][21] - 领域特定提升：在知识密集型领域提升明显，例如生物/医学领域成功率从14.9%提升至43.2%，化学领域从14.1%提升至50.3% [22] SCOPE框架的有效性与特点 - 规则采纳验证：观察到“语言采纳”现象，即Agent在规则合成后直接引用相同措辞，行为变化在几秒内发生，证明了规则的实时影响力 [24] - 视角策略多样性：效率流与周全流的总体准确率相近（44.85% vs 46.06%），但两者解决的问题重合度仅为33.94%，约23%的问题只能被其中一个视角解决 [26][27]；全局集成（Union）捕获了两种策略的优势，总准确率达56.97% [27] - 定性行为差异：面对同一HTTP 403错误，效率流学会“快速失败”并升级到搜索Agent，而周全流学会“寻找替代来源”如尝试Archive.org，展示了处理不同任务类型的能力 [28] - 框架主要特点：1) 步级别适应，允许从任务中途的失败中恢复 [32]；2) 单Agent优化，每个Agent基于自身特定模式进化Prompt [32]；3) 主动优化，61%的规则来自成功模式的增强型合成 [32] 开源实现与实用性 - 开源与可用性：SCOPE代码已在GitHub开源，提供了一套完整的实现框架 [33][34] - 实用特性：即插即用，只需在Agent执行循环中调用on_step_complete()接口即可为现有系统添加自我进化能力，无需修改原有架构 [35]；模型无关，通过统一适配器接口支持OpenAI、Anthropic等100+模型提供商；轻量部署，可通过pip install scope-optimizer一键安装 [35]