MaTTS
搜索文档
「微调已死」再添筹码,谷歌扩展AI自我进化范式,成功经验与失败教训双向学习
36氪· 2025-10-13 10:37
技术核心:Agentic Context Engineering与ReasoningBank - 斯坦福大学、SambaNova、UC伯克利提出Agentic Context Engineering技术,使语言模型无需微调即可自我提升[1] - 谷歌提出类似概念ReasoningBank,作为智能体系统的创新记忆框架,可从自身成功和失败经验中提炼并组织记忆,无需真实标签[1] - ReasoningBank将经验抽象为可操作原则,形成闭环:新任务时检索记忆指导行动,新经验被分析提炼后整合回记忆库,实现持续进化[1] 方法论:深度经验探索与记忆感知扩展 - 谷歌通过深入探索单一任务来扩展经验深度,而非增加任务广度[3] - 引入记忆感知的测试时扩展(MaTTS),在并行和顺序设置下生成多样探索提供对比信号,帮助合成更具普遍性的记忆[3] - 记忆与测试时扩展产生协同效应:高质量记忆引导扩展至更有前景路径,丰富经验进一步锤炼更强记忆,形成正反馈循环[3] 技术实现:记忆结构与智能体集成 - ReasoningBank记忆项为结构化知识单元,包含标题、描述和内容三部分,兼具人类可理解性和机器可用性[6] - 智能体集成分为记忆检索、记忆构建和记忆整合三个步骤[7] - MaTTS提供并行和顺序两种扩展方式:并行扩展通过同一查询生成多轨迹比较识别模式;顺序扩展在单一轨迹内迭代完善推理[8] 性能表现:基准测试结果 - 在WebArena基准测试中,ReasoningBank使Gemini-2.5-pro模型成功率(SR)从46.7%提升至53.9%,交互步骤(Step)从8.8减少至7.4[10] - 在Mind2Web基准测试中,Gemini-2.5-pro模型解决率(Resolve Rate)从54.0%提升至57.4,步骤从21.1减少至19.8[11] - 在跨任务、跨网站和跨领域测试中,ReasoningBank均显示显著提升,如Gemini-2.5-pro在跨任务评估准确率(EA)从41.2%提升至46.1[12] 市场反响与行业影响 - 网友对AI能从自身错误中学习的技术表示看好,认为这可能改变一切[4][5] - 该技术被描述为“巨大的飞跃”,显示出行业对无需微调自我进化能力的高度关注[5]
「微调已死」再添筹码,谷歌扩展AI自我进化范式,成功经验与失败教训双向学习
机器之心· 2025-10-12 16:02
文章核心观点 - 谷歌提出名为ReasoningBank的创新记忆框架,使智能体无需微调即可通过闭环经验学习实现自我提升 [1] - 该技术通过从成功和失败经验中提炼结构化记忆项,指导智能体决策,在多项基准测试中展现出显著的有效性和效率优势 [1][11] 技术框架与核心组件 - ReasoningBank框架包含记忆结构、智能体集成、记忆感知的测试时扩展三大关键组件 [5][7][8] - 记忆项采用结构化设计,包含标题、描述和内容三部分,兼具人类可理解性和机器可用性 [7] - 智能体集成过程分为记忆检索、记忆构建、记忆整合三个步骤 [7] - 记忆感知的测试时扩展包含并行扩展和顺序扩展两种互补实现方式 [8][9] 方法论创新 - 采用经验深度扩展策略,通过深入探索单一任务而非增加任务广度来提升智能体能力 [3] - 记忆感知的测试时扩展通过生成多样化探索提供对比信号,使ReasoningBank能合成更具普遍性的记忆 [3][8] - 在记忆与测试时扩展之间建立正反馈循环,高质量记忆引导扩展路径,丰富经验进一步锤炼更强记忆 [3] 实验性能表现 - 在WebArena测试中,ReasoningBank使Gemini-2.5-pro模型成功率从46.7%提升至53.9%,交互步骤从8.8减少至7.4 [12] - 在Mind2Web测试中,Gemini-2.5-pro模型的解决率从54.0%提升至57.4%,步骤从21.1减少至19.8 [13] - 在跨任务、跨网站、跨领域测试中,ReasoningBank均展现出最佳性能,成功率最高提升达34.2%,效率提升16.0% [11][14] - 并行扩展和顺序扩展均能有效提升性能,与ReasoningBank协同效果最好 [14][15]