Workflow
ReasoningBank
icon
搜索文档
从 ReasoningBank 到 MetaAgent,RL 未必是 Agent 自进化的必要解?
机器之心· 2025-10-25 10:30
文章核心观点 - 智能体自进化的研究正从单一依赖强化学习优化转向多路线探索模式,其中记忆系统的工程技术改进是当前主流方向之一 [1][4] - 记忆系统的核心价值在于将智能体的瞬时“思考”转化为可累积、可迁移的长期经验,使其不仅会“思考”,还能记得“如何思考”,从而具备终身学习和适应能力 [5][7] - 除了记忆系统,行业还在探索基于智能体元认知、自我诊断和架构重构等其他技术路线,以实现更深层次的自进化 [1][14] 当 RL 不再是自进化智能体的唯一答案,记忆工程是否有可能独挑大梁? - 行业过去主要围绕强化学习优化智能体自进化,但当前趋势转向通过工程侧的记忆机制改进,以高效简易的设计促进智能体将推理转为可复用记忆 [5] - 无记忆智能体在处理每个任务时都从“空白”状态开始,导致重复错误和任务连贯性缺失 [8] - 轨迹记忆阶段存储完整的交互序列,但其知识抽象层次低、检索成本随轨迹数量指数级上升,且难以泛化到结构不同的新任务 [8] - 工作流记忆阶段从成功轨迹中提取可复用的结构化操作模板,但学习信号来源单一,无法从失败尝试中吸取教训,对环境变化的适应性较弱 [9] - ReasoningBank 机制将记忆抽象层次从“操作记录”提升到“可泛化推理策略”高度,其核心是包含标题、描述和内容三个字段的结构化推理记忆单元 [10] - ReasoningBank 依赖自我判断反馈回路的闭环学习过程,包括记忆检索、构建和整合机制 [10] - 通过记忆感知测试时扩展机制,额外的计算资源被用于加速和多样化经验生成,例如进行多路径并行推理 [10][11] - MaTTS 机制在网络浏览和软件工程基准测试中,相对提高了高达34.2%的有效性,并减少了16%的交互步骤 [12] - ReasoningBank 机制减轻了对基础模型重复微调的成本,支持更轻量、更快速的智能体适应性进化 [13] 记忆系统不是终点,智能体自进化还藏着哪些被忽视的技术方向? - 除记忆系统外,行业研究人员正从智能体内在的自我识别、外在的工具和策略辅助等机制着手,探索自进化的其他技术路线 [14]
腾讯研究院AI速递 20251014
腾讯研究院· 2025-10-14 01:53
OpenAI芯片战略合作 - OpenAI与博通达成战略合作,将部署100亿瓦OpenAI设计的定制AI芯片,计划于2026年下半年开始部署并于2029年底完成 [1] - 这是OpenAI一个月内与第三家芯片巨头的交易,此前已宣布获得英伟达1000亿美元投资以及与AMD达成的60亿瓦GPU部署协议 [1] - 双方过去18个月一直在设计新芯片,消息公布后博通股价一度涨超10% [1] 谷歌Gemini 3.0技术更新 - 谷歌Gemini 3.0预计10月22日发布,内测显示其前端开发能力强大,可一键生成网页、游戏、原创音乐等 [2] - 模型采用MoE架构,超万亿参数,每次查询激活150-200亿参数,上下文长度从100万跃升至数百万token,可处理整本书和代码库 [2] - 2025年9月Gemini环比增长率达46.24%,在特定测试中表现断档领先 [2] LiblibAI平台升级 - LiblibAI(哩布哩布)2.0升级接入海螺、通义万相、可灵、Pixverse、vidu等10多个热门视频模型和大量生图模型 [3] - 新增视频特效一键同款功能,接入Midjourney V7、Qwen-image、Seedream 4.0等常用生图模型,支持图生视频无缝切换 [3] - 增加资产管理菜单和AI工具箱入口,集合高清放大、抠图、产品精修等大量模型工作流,提供一站式AI体验 [3] Mamba-3架构创新 - Mamba-3已进入ICLR 2026盲审,采用梯形规则离散化、复数状态空间、多输入多输出设计三大创新 [4] - 通过引入复数隐状态实现"钟摆"记忆能够处理周期模式,MIMO设计显著提高算术强度使GPU满负荷运行 [5] - 在超长上下文信息检索测试中表现优异,推理延迟大幅降低,适合长文本处理、实时交互和边缘计算 [5] SAM 3分割技术突破 - SAM 3论文登陆ICLR 2026,实现可提示概念分割,用户通过简单名词短语或图像范例即可分割所有匹配实例 [6] - 在SA-Co基准上性能比之前系统提升至少2倍,在LVIS数据集零样本掩码平均精度达47.0,超越之前38.5的纪录 [6] - 采用双编码器-解码器Transformer架构,构建包含400万独特短语和5200万掩码的高质量训练数据,单H200 GPU处理100+物体图像仅需30毫秒 [6] 谷歌ReasoningBank记忆框架 - 谷歌提出ReasoningBank创新记忆框架,从智能体成功和失败经验中提炼记忆项形成闭环自我进化系统 [7] - 引入记忆感知的测试时扩展通过并行和顺序设置生成多样探索,使记忆合成更具普遍性 [7] - 在多项基准测试中,ReasoningBank有效性相对提高达34.2%,交互步骤减少16.0% [7] 大模型科学推理能力 - GPT-5和Gemini 2.5 Pro在国际天文学和天体物理学奥林匹克竞赛中均获金牌成绩,GPT-5在理论考试平均得分84.2% [8] - 两大模型在理论考试表现优于当届最佳学生,但在几何/空间问题上准确率(49-78%)明显低于物理/数学问题(67-91%) [8] - 标志着AI在天文、天体物理等多科学领域展现出接近顶尖人类水平的综合能力 [8] 人形机器人技术进展 - 宇树G1机器人展示空中翻转、连续后空翻、单手侧后翻等高难度动作,并演示功夫拳法和顶膝动作 [10] - 公司计划今年下半年推出身高1.8米的人形机器人,已申请近10项人形机器人相关专利 [10] - 今年上半年国内机器人行业平均增长率达50%-100%,算法升级后机器人理论上可完成各种舞蹈和武术动作 [10] 苹果智能眼镜产品规划 - 苹果智能眼镜可能与Mac配对时运行完整visionOS,与iPhone配对时切换至轻便移动界面,计划2026-2027年发布 [11] - 公司已放弃开发"Vision Air"头戴设备,将工程师精力集中转向智能眼镜开发,直接对标Meta的Ray-Ban Display [11] - 第一代产品将不配备显示功能,但包含音乐扬声器、摄像头、语音控制和可能的健康功能 [11] OpenAI发展现状与展望 - Sam Altman表示AI会改变工作性质但不会消灭真正的工作,未来工作形式可能更轻松 [12] - GPT-6开发重点是更智能的模型、更长上下文和更好记忆能力,Codex已能完成整天任务 [12] - OpenAI当前每周活跃用户达8亿,团队正在研发全新语音交互设备但短期内不会透露 [12]
「微调已死」再添筹码,谷歌扩展AI自我进化范式,成功经验与失败教训双向学习
36氪· 2025-10-13 10:37
技术核心:Agentic Context Engineering与ReasoningBank - 斯坦福大学、SambaNova、UC伯克利提出Agentic Context Engineering技术,使语言模型无需微调即可自我提升[1] - 谷歌提出类似概念ReasoningBank,作为智能体系统的创新记忆框架,可从自身成功和失败经验中提炼并组织记忆,无需真实标签[1] - ReasoningBank将经验抽象为可操作原则,形成闭环:新任务时检索记忆指导行动,新经验被分析提炼后整合回记忆库,实现持续进化[1] 方法论:深度经验探索与记忆感知扩展 - 谷歌通过深入探索单一任务来扩展经验深度,而非增加任务广度[3] - 引入记忆感知的测试时扩展(MaTTS),在并行和顺序设置下生成多样探索提供对比信号,帮助合成更具普遍性的记忆[3] - 记忆与测试时扩展产生协同效应:高质量记忆引导扩展至更有前景路径,丰富经验进一步锤炼更强记忆,形成正反馈循环[3] 技术实现:记忆结构与智能体集成 - ReasoningBank记忆项为结构化知识单元,包含标题、描述和内容三部分,兼具人类可理解性和机器可用性[6] - 智能体集成分为记忆检索、记忆构建和记忆整合三个步骤[7] - MaTTS提供并行和顺序两种扩展方式:并行扩展通过同一查询生成多轨迹比较识别模式;顺序扩展在单一轨迹内迭代完善推理[8] 性能表现:基准测试结果 - 在WebArena基准测试中,ReasoningBank使Gemini-2.5-pro模型成功率(SR)从46.7%提升至53.9%,交互步骤(Step)从8.8减少至7.4[10] - 在Mind2Web基准测试中,Gemini-2.5-pro模型解决率(Resolve Rate)从54.0%提升至57.4,步骤从21.1减少至19.8[11] - 在跨任务、跨网站和跨领域测试中,ReasoningBank均显示显著提升,如Gemini-2.5-pro在跨任务评估准确率(EA)从41.2%提升至46.1[12] 市场反响与行业影响 - 网友对AI能从自身错误中学习的技术表示看好,认为这可能改变一切[4][5] - 该技术被描述为“巨大的飞跃”,显示出行业对无需微调自我进化能力的高度关注[5]
「微调已死」再添筹码,谷歌扩展AI自我进化范式,成功经验与失败教训双向学习
机器之心· 2025-10-12 16:02
文章核心观点 - 谷歌提出名为ReasoningBank的创新记忆框架,使智能体无需微调即可通过闭环经验学习实现自我提升 [1] - 该技术通过从成功和失败经验中提炼结构化记忆项,指导智能体决策,在多项基准测试中展现出显著的有效性和效率优势 [1][11] 技术框架与核心组件 - ReasoningBank框架包含记忆结构、智能体集成、记忆感知的测试时扩展三大关键组件 [5][7][8] - 记忆项采用结构化设计,包含标题、描述和内容三部分,兼具人类可理解性和机器可用性 [7] - 智能体集成过程分为记忆检索、记忆构建、记忆整合三个步骤 [7] - 记忆感知的测试时扩展包含并行扩展和顺序扩展两种互补实现方式 [8][9] 方法论创新 - 采用经验深度扩展策略,通过深入探索单一任务而非增加任务广度来提升智能体能力 [3] - 记忆感知的测试时扩展通过生成多样化探索提供对比信号,使ReasoningBank能合成更具普遍性的记忆 [3][8] - 在记忆与测试时扩展之间建立正反馈循环,高质量记忆引导扩展路径,丰富经验进一步锤炼更强记忆 [3] 实验性能表现 - 在WebArena测试中,ReasoningBank使Gemini-2.5-pro模型成功率从46.7%提升至53.9%,交互步骤从8.8减少至7.4 [12] - 在Mind2Web测试中,Gemini-2.5-pro模型的解决率从54.0%提升至57.4%,步骤从21.1减少至19.8 [13] - 在跨任务、跨网站、跨领域测试中,ReasoningBank均展现出最佳性能,成功率最高提升达34.2%,效率提升16.0% [11][14] - 并行扩展和顺序扩展均能有效提升性能,与ReasoningBank协同效果最好 [14][15]