技术核心:Agentic Context Engineering与ReasoningBank - 斯坦福大学、SambaNova、UC伯克利提出Agentic Context Engineering技术,使语言模型无需微调即可自我提升[1] - 谷歌提出类似概念ReasoningBank,作为智能体系统的创新记忆框架,可从自身成功和失败经验中提炼并组织记忆,无需真实标签[1] - ReasoningBank将经验抽象为可操作原则,形成闭环:新任务时检索记忆指导行动,新经验被分析提炼后整合回记忆库,实现持续进化[1] 方法论:深度经验探索与记忆感知扩展 - 谷歌通过深入探索单一任务来扩展经验深度,而非增加任务广度[3] - 引入记忆感知的测试时扩展(MaTTS),在并行和顺序设置下生成多样探索提供对比信号,帮助合成更具普遍性的记忆[3] - 记忆与测试时扩展产生协同效应:高质量记忆引导扩展至更有前景路径,丰富经验进一步锤炼更强记忆,形成正反馈循环[3] 技术实现:记忆结构与智能体集成 - ReasoningBank记忆项为结构化知识单元,包含标题、描述和内容三部分,兼具人类可理解性和机器可用性[6] - 智能体集成分为记忆检索、记忆构建和记忆整合三个步骤[7] - MaTTS提供并行和顺序两种扩展方式:并行扩展通过同一查询生成多轨迹比较识别模式;顺序扩展在单一轨迹内迭代完善推理[8] 性能表现:基准测试结果 - 在WebArena基准测试中,ReasoningBank使Gemini-2.5-pro模型成功率(SR)从46.7%提升至53.9%,交互步骤(Step)从8.8减少至7.4[10] - 在Mind2Web基准测试中,Gemini-2.5-pro模型解决率(Resolve Rate)从54.0%提升至57.4,步骤从21.1减少至19.8[11] - 在跨任务、跨网站和跨领域测试中,ReasoningBank均显示显著提升,如Gemini-2.5-pro在跨任务评估准确率(EA)从41.2%提升至46.1[12] 市场反响与行业影响 - 网友对AI能从自身错误中学习的技术表示看好,认为这可能改变一切[4][5] - 该技术被描述为“巨大的飞跃”,显示出行业对无需微调自我进化能力的高度关注[5]
「微调已死」再添筹码,谷歌扩展AI自我进化范式,成功经验与失败教训双向学习