Workflow
工作流级别的策略学习
icon
搜索文档
你的Agent还在每次从零开始?Glean用Trace Learning让它越用越聪明
深思SenseAI· 2026-04-03 08:20
文章核心观点 - 文章提出并详细阐述了一种名为“Trace Learning”(轨迹学习)的AI Agent自我改进方法,该方法使Agent能够从真实任务的执行轨迹中自动提炼策略并形成记忆,从而在后续类似任务中直接应用,实现越用越强的目标[2] - 该方法由企业搜索领域头部公司Glean提出并已在生产环境中实践,其核心价值在于让Agent学会在特定企业环境中如何正确地将多个工具串联成工作流,而非仅仅学会调用单个工具[20][27] - Trace Learning的关键设计原则包括:强调“学对”比“多学”更重要、采用师生制框架进行离线学习与验证、构建部署级与用户级的两层安全记忆架构,并与底层模型解耦[9][23][31][32] 问题与现状 - 当前大多数AI Agent存在根本性缺陷:每次执行任务都从零开始,状态不保留,导致重复探索、低效且无法积累经验,如同新员工永远停留在第一天[4][5][6] - 现有的RAG、系统提示词等技术本质是人工预设的上下文,无法自动扩展和适应变化,无法替代Agent在真实工作过程中自主积累经验的需求[6] 什么是Trace(轨迹) - Trace是任务执行的完整记录,包含Agent调用的工具、顺序、参数及结果,是执行路径的完整还原[7][8] - 在企业环境中,Trace的价值在于揭示如何将多个工具串联成工作流的隐含知识,这些知识通常不在模型的训练数据中[8] - Trace Learning的核心是在推理层面提炼有效策略、失败模式和优化方法,无需微调模型权重,且与底层模型解耦[9] 师生制学习框架 - Trace Learning采用离线学习和在线应用两阶段,离线学习采用“师生制”框架[10][11] - 框架流程:从部署环境采样任务轨迹;由拥有最强推理预算和工具权限的Teacher Agent提供参考基线;多个在真实生产约束下的Student Agent执行任务;通过对比打分,将最优Student的策略蒸馏成简洁的自然语言记忆[12][14][15][16] - 该设计的优势在于通过多条执行路径的交叉验证来确保学习质量,提炼出的记忆是自然语言形式,便于人类阅读和审计[18] 在线应用与价值 - 在线应用时,系统根据任务目标检索相关记忆,并在执行前用其调整Agent的计划[19] - 通过具体案例说明,Trace Learning使Agent能记住从真实执行中踩坑学到的特定规则,避免重复错误,例如在更新Salesforce数据时保护关键字段不被覆盖[19][20] - 其真正价值在于让Agent学会在特定企业环境中把事情做对,而不仅仅是学会调用工具[20] 准确性保障机制 - 为确保学习准确性,Glean采用严格验证流程:从多条响应中提取事实性断言、检查一致性、用搜索验证冲突、矛盾无法解决则不学习[21][22][28] - 学习策略是精挑细选高质量、有代表性且可能重复的查询,而非“什么都学”,并强调从成功和失败的轨迹中进行对比学习[23][24] 工具与工作流策略 - 学习成果存储得窄而具体,聚焦于特定情境下的优先策略[25] - 学习的重点从“调用哪个工具”升级到“如何跨工具完成任务”,即掌握工具串联组合成工作流的能力[26][27] - 这种工作流级别的学习能通过将工具聚合成高层原语来减少运行时的操作空间,并对MCP等上下文有限的工具尤其有价值[30] 两层记忆与安全性 - 记忆分为两层以确保安全:部署级记忆(公司内共享,仅包含可泛化的工具、模式等信息,排除所有敏感数据)和用户级记忆(仅个人可见,包含模板、格式等个人化偏好)[32][33][35] - 用户级记忆对性能影响巨大,是决定Agent“好不好用”的关键[35] - 安全措施包括:所有写操作在影子路径中回放以学习完整流程而不影响生产数据;所有学习存储在模型外部,记忆永不跨企业泛化,从根本上杜绝信息泄露风险[35] 行业前沿与进化路径 - 文章梳理了相关前沿工作:Dynamic Cheatsheet(解决“记什么”)、ACE(解决“怎么组织”)、ReasoningBank(解决“怎么对比学习”)[36] - Glean在这些工作基础上进行了企业级适配,整合成可在生产环境运行的完整系统,标志着该领域从讨论“是否需要记忆”快速成熟到讨论“如何做安全、分层、可审计的企业级记忆系统”[36][37] 行业影响与未来方向 - Agent的竞争力正从“模型能力”转向“记忆深度”,在特定企业环境积累有效执行经验成为关键壁垒[38] - “不学错”比“多学”更重要,错误的记忆比没有记忆更危险[39] - 行业竞争焦点应从“Agent能调什么工具”升级到“Agent知道怎么把工具串起来完成工作”[39] - 未来方向是学习跨文档、跨操作、跨系统的“工作如何被完成”的轨迹,即构建Context Graph[40] - 对行业的实际启示是,应立即开始记录Agent的执行轨迹,这些数据是未来Agent进化的关键燃料[40]