Workflow
Agent KB
icon
搜索文档
Agent KB:经验池让Agents互相学习!GAIA新开源SOTA,Pass@1性能最高提升6.66
机器之心· 2025-07-25 15:15
Agent KB框架核心创新 - 通过构建共享经验池和两阶段检索机制实现AI Agent间的经验共享,显著提升复杂推理和问题解决能力[1] - 采用「Reason-Retrieve-Refine」方案和Teacher-Student双阶段检索机制,实现不同层次的历史经验学习与应用[5] - 解决了现有记忆系统中不同Agent框架经验无法共享的根本性限制,避免新任务需从零开始探索的问题[4] 技术架构与工作流程 - 知识构建阶段从多元化数据集提取可泛化的问题解决模式,转化为结构化知识条目[21] - 推理阶段采用Student Agent和Teacher Agent协作机制,分别负责宏观策略规划和微观执行优化[22][23] - Student Agent通过Reason-Retrieve-Refine循环提供整体解决方案框架,Teacher Agent提供精细化改进建议[22][23] GAIA基准测试表现 - 在GAIA验证集165个测试用例中,GPT-4.1模型Pass@1指标从55.15%提升至61.21%,Claude-3.7从58.79%提升至65.45%[12][13] - Level 1基础任务中Claude-3.7达到75.47%准确率,Level 2中等复杂度任务达66.28%,Level 3高难度任务保持38.46%[12] - 采用简单smolagents框架验证,排除复杂框架带来的性能增益,清晰展示经验共享机制本身效果[12] 跨领域应用验证 - 在SWE-bench软件工程数据集上,o3-mini模型50次迭代成功率从23.00%提升至31.67%,100次迭代从29.33%提升至33.67%[16][17] - 蛋白质数据库案例显示,传统方法计算O-H距离错误为0.961 Å,Agent KB增强后正确提取骨架原子对报告1.456 Å[19] - 所有测试模型包括DeepSeek-R1、GPT-4o等均显示一致性改进趋势,证明方法普适性[15] 关键技术组件分析 - 消融实验显示Refine模块最关键,移除后整体准确率从61.21%降至55.15%,Level 3任务从34.62%降至30.77%[27][28] - Student Agent缺失使Level 1任务从79.25%降至75.47%,Teacher Agent缺失使Level 1从79.25%降至73.58%[27] - 采用文本相似度、语义相似度和混合检索三种核心方法,最优策略因任务类型而异[30][31] 错误分析与改进机制 - GPT-4.1纠正25个基线特有错误,净减少10个错误实例 Claude-3.7纠正22个基线错误,净改进11个实例[35] - 检索错误从24减至20,规划错误从13减至10,格式错误显著减少,显示结构化经验的优化效果[35] - 改进具有选择性,49个错误在基线和Agent KB中均出现,表明模型固有局限[35]