「微调已死」再添筹码，谷歌扩展AI自我进化范式，成功经验与失败教训双向学习

技术核心：Agentic Context Engineering与ReasoningBank - 斯坦福大学、SambaNova、UC伯克利提出Agentic Context Engineering技术，使语言模型无需微调即可自我提升[1] - 谷歌提出类似概念ReasoningBank，作为智能体系统的创新记忆框架，可从自身成功和失败经验中提炼并组织记忆，无需真实标签[1] - ReasoningBank将经验抽象为可操作原则，形成闭环：新任务时检索记忆指导行动，新经验被分析提炼后整合回记忆库，实现持续进化[1] 方法论：深度经验探索与记忆感知扩展 - 谷歌通过深入探索单一任务来扩展经验深度，而非增加任务广度[3] - 引入记忆感知的测试时扩展（MaTTS），在并行和顺序设置下生成多样探索提供对比信号，帮助合成更具普遍性的记忆[3] - 记忆与测试时扩展产生协同效应：高质量记忆引导扩展至更有前景路径，丰富经验进一步锤炼更强记忆，形成正反馈循环[3] 技术实现：记忆结构与智能体集成 - ReasoningBank记忆项为结构化知识单元，包含标题、描述和内容三部分，兼具人类可理解性和机器可用性[6] - 智能体集成分为记忆检索、记忆构建和记忆整合三个步骤[7] - MaTTS提供并行和顺序两种扩展方式：并行扩展通过同一查询生成多轨迹比较识别模式；顺序扩展在单一轨迹内迭代完善推理[8] 性能表现：基准测试结果 - 在WebArena基准测试中，ReasoningBank使Gemini-2.5-pro模型成功率（SR）从46.7%提升至53.9%，交互步骤（Step）从8.8减少至7.4[10] - 在Mind2Web基准测试中，Gemini-2.5-pro模型解决率（Resolve Rate）从54.0%提升至57.4，步骤从21.1减少至19.8[11] - 在跨任务、跨网站和跨领域测试中，ReasoningBank均显示显著提升，如Gemini-2.5-pro在跨任务评估准确率（EA）从41.2%提升至46.1[12] 市场反响与行业影响 - 网友对AI能从自身错误中学习的技术表示看好，认为这可能改变一切[4][5] - 该技术被描述为“巨大的飞跃”，显示出行业对无需微调自我进化能力的高度关注[5]