Workflow
智能体自己出现问题自己找!首次提出“自动化失败归因”课题 | ICML2025 Spotlight
量子位·2025-06-11 10:27

核心观点 - LLM驱动的Multi-Agent系统存在脆弱性,单个Agent失误或信息传递错误可导致整体任务失败,目前依赖人工调试效率低下[5][7] - 研究首次提出"自动化失败归因"课题,需定位责任Agent(failure-responsible agent)和错误步骤(decisive error step)[8] - 构建首个专用数据集Who&When,覆盖127个LLM Multi-Agent系统的失败日志,含人工标注的细粒度责任划分[8][9] - 开发三种自动化归因方法:全局审视法(All-at-Once)、逐步侦查法(Step-by-Step)、二分定位法(Binary Search),性能各有利弊[9][10] - 当前最佳方法在识别责任Agent上准确率仅53.5%,定位错误步骤准确率低至14.2%,任务难度超越现有SOTA模型能力[11][15] 研究方法与数据集 - 数据集Who&When:包含算法生成和人工构建的127个系统失败日志,确保场景多样性和真实性[8] - 标注维度:明确"谁"(责任Agent)、"何时"(错误步骤)、"为何"(自然语言解释)三要素[13] - 实验设定:分"已知真实答案"(With Ground Truth)和"未知"(Without Ground Truth)两种场景测试[11] 自动化归因方法对比 - All-at-Once:单次分析完整日志,责任Agent识别准确率最高(54.33%),但错误步骤定位仅12.5%,成本最低(17,106 tokens)[9][14] - Step-by-Step:逐步检查日志,错误步骤定位表现最优(25.51%),但责任识别准确率仅35.2%,成本最高(87,720 tokens)[9][14] - Binary Search:二分递归定位,综合性能居中,责任识别准确率44.13%-51.72%,成本34,659 tokens[10][14] - 混合方法:组合策略可提升性能(责任识别57.02%,错误步骤12.28%),但成本激增至149,177 tokens[14] 实验结果与挑战 - 模型表现:GPT-4o在All-at-Once模式下责任识别达54.31%,但其他模型(如DeepSeek R1)表现更差(10.34%)[15][16] - 关键瓶颈:上下文长度增加会导致性能下降,错误步骤定位对长度敏感[17] - 行业意义:为Multi-Agent系统提供从"评估"到"改进"的闭环优化路径,提升可靠性[18] 学术贡献与资源 - 论文获ICML 2025 Spotlight,代码与数据集已开源[4][19] - 参与机构包括宾夕法尼亚州立大学、Google DeepMind、Meta等顶尖机构[19]