MaTTS
搜索文档
「微调已死」再添筹码,谷歌扩展AI自我进化范式,成功经验与失败教训双向学习
36氪· 2025-10-13 10:37
这几天,关于「微调已死」的言论吸引了学术圈的广泛关注。 一篇来自斯坦福大学、SambaNova、UC 伯克利的论文提出了一种名为 Agentic Context Engineering(智能体 / 主动式上下文工程)的技术,让语言模型无 需微调也能实现自我提升! 其实,在更早的时候,谷歌一篇名为《ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory》的论文提出了一个与 Agentic Context Engineering 类似的概念 ——ReasoningBank,用于智能体系统的创新记忆框架,从智能体自身判断的成功和失败经验中提炼并组织记忆项,无需真实标 签。 如图 1 所示,利用 ReasoningBank 不仅可以捕捉成功中的有效策略,还能从失败中提取重要的预防教训,将这些内容抽象成一系列可操作的原则。这个过 程在一个闭环中运行:当面对新任务时,智能体从 ReasoningBank 中检索相关记忆来指导其行动。随后,新的经验被分析、提炼并重新整合回 ReasoningBank,使得智能体能够不断进化并提升其战略能力。 通过将 ...
「微调已死」再添筹码,谷歌扩展AI自我进化范式,成功经验与失败教训双向学习
机器之心· 2025-10-12 16:02
文章核心观点 - 谷歌提出名为ReasoningBank的创新记忆框架,使智能体无需微调即可通过闭环经验学习实现自我提升 [1] - 该技术通过从成功和失败经验中提炼结构化记忆项,指导智能体决策,在多项基准测试中展现出显著的有效性和效率优势 [1][11] 技术框架与核心组件 - ReasoningBank框架包含记忆结构、智能体集成、记忆感知的测试时扩展三大关键组件 [5][7][8] - 记忆项采用结构化设计,包含标题、描述和内容三部分,兼具人类可理解性和机器可用性 [7] - 智能体集成过程分为记忆检索、记忆构建、记忆整合三个步骤 [7] - 记忆感知的测试时扩展包含并行扩展和顺序扩展两种互补实现方式 [8][9] 方法论创新 - 采用经验深度扩展策略,通过深入探索单一任务而非增加任务广度来提升智能体能力 [3] - 记忆感知的测试时扩展通过生成多样化探索提供对比信号,使ReasoningBank能合成更具普遍性的记忆 [3][8] - 在记忆与测试时扩展之间建立正反馈循环,高质量记忆引导扩展路径,丰富经验进一步锤炼更强记忆 [3] 实验性能表现 - 在WebArena测试中,ReasoningBank使Gemini-2.5-pro模型成功率从46.7%提升至53.9%,交互步骤从8.8减少至7.4 [12] - 在Mind2Web测试中,Gemini-2.5-pro模型的解决率从54.0%提升至57.4%,步骤从21.1减少至19.8 [13] - 在跨任务、跨网站、跨领域测试中,ReasoningBank均展现出最佳性能,成功率最高提升达34.2%,效率提升16.0% [11][14] - 并行扩展和顺序扩展均能有效提升性能,与ReasoningBank协同效果最好 [14][15]