「微调已死」再添筹码，谷歌扩展AI自我进化范式，成功经验与失败教训双向学习

文章核心观点 - 谷歌提出名为ReasoningBank的创新记忆框架，使智能体无需微调即可通过闭环经验学习实现自我提升 [1] - 该技术通过从成功和失败经验中提炼结构化记忆项，指导智能体决策，在多项基准测试中展现出显著的有效性和效率优势 [1][11] 技术框架与核心组件 - ReasoningBank框架包含记忆结构、智能体集成、记忆感知的测试时扩展三大关键组件 [5][7][8] - 记忆项采用结构化设计，包含标题、描述和内容三部分，兼具人类可理解性和机器可用性 [7] - 智能体集成过程分为记忆检索、记忆构建、记忆整合三个步骤 [7] - 记忆感知的测试时扩展包含并行扩展和顺序扩展两种互补实现方式 [8][9] 方法论创新 - 采用经验深度扩展策略，通过深入探索单一任务而非增加任务广度来提升智能体能力 [3] - 记忆感知的测试时扩展通过生成多样化探索提供对比信号，使ReasoningBank能合成更具普遍性的记忆 [3][8] - 在记忆与测试时扩展之间建立正反馈循环，高质量记忆引导扩展路径，丰富经验进一步锤炼更强记忆 [3] 实验性能表现 - 在WebArena测试中，ReasoningBank使Gemini-2.5-pro模型成功率从46.7%提升至53.9%，交互步骤从8.8减少至7.4 [12] - 在Mind2Web测试中，Gemini-2.5-pro模型的解决率从54.0%提升至57.4%，步骤从21.1减少至19.8 [13] - 在跨任务、跨网站、跨领域测试中，ReasoningBank均展现出最佳性能，成功率最高提升达34.2%，效率提升16.0% [11][14] - 并行扩展和顺序扩展均能有效提升性能，与ReasoningBank协同效果最好 [14][15]