经验驱动的终身学习
搜索文档
AI牛马实现“干中学”!上海AI Lab联合推出智能体自我进化新框架
量子位· 2025-10-22 07:50
MUSE框架核心创新 - 提出全新的智能体框架MUSE,旨在解决现有LLM智能体在处理现实世界长程任务时无法积累经验和持续自我进化的核心挑战[1] - 核心理念是为LLM智能体构建经验驱动、自我演化的闭环系统,通过测试时学习范式解决静态参数、无法进化、长程任务三大痛点[5] - 框架围绕分层记忆模块展开,实现规划→执行→反思→提取经验的四步闭环循环,使智能体性能随经验积累持续提高[13][15] 分层记忆模块设计 - 引入分层记忆模块作为大脑中枢,组织不同层级经验以解决传统LLM智能体缺乏长期记忆的问题[7] - Strategic Memory保存困境-策略对,全局加载到系统提示指导宏观行为范式[7] - Procedural Memory按应用→SOP索引→详细步骤三级组织,将成功子任务轨迹实时沉淀为自然语言标准作业程序[7] - Tool Memory包含静态描述和动态指令双组件,为每个基础工具提供肌肉记忆并在使用后立即更新[8] 自主反思机制 - 在每完成一个子任务后,智能体会自主对执行轨迹进行反思,评估任务成功或失败[10] - 将原始执行轨迹自动转化为结构化经验,成功时提炼高效操作序列作为新SOP[11] - 具备第二次机会机制,第一次尝试失败可重试一次,再次失败才触发重新规划[12] 实验性能表现 - 在专为长期生产力任务设计的TAC基准测试上取得SOTA性能,指标首次突破50%大关达到51.78%[16] - 仅使用轻量级Gemini-2.5 Flash模型就击败了使用更大模型Claude Sonnet 4的现有SOTA方法[16] - 面对重复任务时表现持续改进,展示出熟能生巧的能力[19] 泛化与迁移能力 - 积累的经验具备强大泛化特性,在全新未见任务上能实现零样本改进[21] - 经验可迁移性显著,将闭源模型经验迁移到开源模型DeepSeek-V3后,使其在一众开源模型中成为SOTA[22] - DeepSeek-V3使用MUSE带记忆框架后,检查点通过率从34.12%提升至50.59%[23] 实际应用演示 - 在模拟人类项目经理管理公司项目issue的演示中,MUSE能在包括GitLab、Plane在内的多个软件平台来回跳转操作,无需人类介入完成复杂任务[3] - 智能体可创建多人聊天群组,同时向三位同事询问信息,显著简化信息收集流程[24] - 能够跨越多个平台依次与同事沟通,执行超过100个步骤圆满完成复杂任务[26] 技术开源与未来方向 - MUSE的论文与代码已经完成开源[4] - 未来研究方向包括引入人类反馈和人类示范集成到记忆系统中,加速AI智能体学习效率[29] - 需要优化经验检索效率,确保新旧知识无缝整合,实现真正的终身持续学习[30] - 需创建更全面的长期任务评估基准,多维度考察智能体记忆保留能力、技能迁移能力和主动决策能力[31]