智能体自进化
搜索文档
周靖人署名,通义实验室开源智能体自进化系统:让模型学会“自我反思”,14B也能越级打怪
量子位· 2025-11-19 13:02
核心观点 - 公司开源了名为AgentEvolver的智能体自进化系统,该系统通过自我提问、自我导航、自我归因三大模块,使智能体能在开放环境中自主演化行为能力 [2] - 该系统在14B模型上将任务平均完成率从29.8%大幅提升至57.6%,性能近乎翻倍,并展现出卓越的跨域泛化能力和高效学习特性 [2][4] 性能表现 - 在14B模型上,AgentEvolver将基准模型的任务平均完成率(avg@8)从29.8%提升至57.6%,最佳尝试(best@8)指标达到76.7% [4] - 在7B模型上,平均完成率从15.8%跃升至45.2%,证明该框架对不同规模模型具有普适性增强能力 [5] - 强化后的14B模型在特定任务上表现已超越未优化的32B乃至更大参数模型,实现越级挑战 [5] - 学习效率极速收敛,达到基线模型90%性能水平时,训练步数在AppWorld任务中减少55.6%,在BFCL任务中减少66.7% [7][8] 技术架构与机制 - 系统本质是利用大语言模型自身理解力,构建数据-探索-反馈的自动化流程,由Master节点统一调度任务生成、轨迹采样、经验总结和模型优化四个阶段 [13][15] - 采用服务化解耦设计,将环境服务、模型服务和执行层拆分为独立服务以支持大规模训练 [16] - 引入上下文管理器应对长程任务挑战,支持基础因果、推理增强、滑动窗口及自主上下文管理四种范式 [18] - 通过自我提问机制主动合成候选任务构建训练课程,打破对外部数据的依赖 [21][23] - 通过自我导航机制将历史探索轨迹抽象为结构化文本经验,使智能体具备举一反三能力,提高探索成功率 [24][25][26][28] - 通过自我归因机制引入基于大语言模型的过程奖励模型,对每个动作步骤进行细粒度因果分析和打分,提升策略优化样本效率 [30][31][33] 泛化能力 - 仅使用合成数据训练的模型迁移到全新领域时性能衰减微乎其微,例如在AppWorld上训练的模型直接用于解决BFCL任务时表现良好 [9][10] - 跨域泛化性极强,表明系统真正掌握了通用的工具使用与推理逻辑能力,而非记忆特定环境题库 [11]
从 ReasoningBank 到 MetaAgent,RL 未必是 Agent 自进化的必要解?
机器之心· 2025-10-25 10:30
文章核心观点 - 智能体自进化的研究正从单一依赖强化学习优化转向多路线探索模式,其中记忆系统的工程技术改进是当前主流方向之一 [1][4] - 记忆系统的核心价值在于将智能体的瞬时“思考”转化为可累积、可迁移的长期经验,使其不仅会“思考”,还能记得“如何思考”,从而具备终身学习和适应能力 [5][7] - 除了记忆系统,行业还在探索基于智能体元认知、自我诊断和架构重构等其他技术路线,以实现更深层次的自进化 [1][14] 当 RL 不再是自进化智能体的唯一答案,记忆工程是否有可能独挑大梁? - 行业过去主要围绕强化学习优化智能体自进化,但当前趋势转向通过工程侧的记忆机制改进,以高效简易的设计促进智能体将推理转为可复用记忆 [5] - 无记忆智能体在处理每个任务时都从“空白”状态开始,导致重复错误和任务连贯性缺失 [8] - 轨迹记忆阶段存储完整的交互序列,但其知识抽象层次低、检索成本随轨迹数量指数级上升,且难以泛化到结构不同的新任务 [8] - 工作流记忆阶段从成功轨迹中提取可复用的结构化操作模板,但学习信号来源单一,无法从失败尝试中吸取教训,对环境变化的适应性较弱 [9] - ReasoningBank 机制将记忆抽象层次从“操作记录”提升到“可泛化推理策略”高度,其核心是包含标题、描述和内容三个字段的结构化推理记忆单元 [10] - ReasoningBank 依赖自我判断反馈回路的闭环学习过程,包括记忆检索、构建和整合机制 [10] - 通过记忆感知测试时扩展机制,额外的计算资源被用于加速和多样化经验生成,例如进行多路径并行推理 [10][11] - MaTTS 机制在网络浏览和软件工程基准测试中,相对提高了高达34.2%的有效性,并减少了16%的交互步骤 [12] - ReasoningBank 机制减轻了对基础模型重复微调的成本,支持更轻量、更快速的智能体适应性进化 [13] 记忆系统不是终点,智能体自进化还藏着哪些被忽视的技术方向? - 除记忆系统外,行业研究人员正从智能体内在的自我识别、外在的工具和策略辅助等机制着手,探索自进化的其他技术路线 [14]
仅100种子题,合成数据质量超GPT-5,阿里、上交提出Socratic-Zero框架
机器之心· 2025-10-23 15:45
文章核心观点 - 阿里巴巴与上海交通大学EPIC Lab联合提出名为Socratic-Zero的自主推理训练框架,该框架仅从100个种子问题出发,通过三个智能体的协同进化,实现无需外部数据依赖的模型推理能力自进化[5] - 该方法的核心突破在于,其合成数据质量全面超越GPT-5、Gemini-2.5-Pro、Claude-4.1-Opus等顶级闭源模型作为数据生成器时的表现[14] - 该框架证明了在推理能力构建中,高质量的教学策略可能比模型规模更重要,为资源受限的团队提供了新的可能性,并开启了一条零数据、自进化的新路径[34][35] 方法框架与设计理念 - 框架设计灵感源于苏格拉底的“精神助产术”,将哲学理念转化为由Solver(学生)、Teacher(导师)与Generator(学徒)构成的三智能体自进化系统[9][13] - 三者构成闭环自进化系统:Solver的弱点驱动Teacher出题,Teacher的行为被Generator学习,Generator产出的新问题又反哺Solver训练,全程无需人类干预[13] - Solver通过在线偏好优化(Online DPO)从成功与失败轨迹中自我修正[16][20] - Teacher基于Solver的错误,动态生成针对性新问题以暴露其知识盲区[15][17] - Generator通过价值加权监督微调(WSFT)模仿Teacher的出题策略,实现课程的规模化生成[15][18] 实验结果与性能表现 - 在7个数学推理基准上,Socratic-Solver-8B平均准确率达56.1%,相比MetaMath和WizardMath(平均40.7%)绝对提升15.4个百分点[25] - 在高难度竞赛题上优势更显著,例如在AIME-24上达到28.4%准确率,相比静态增强方法的12.3%提升16.1个百分点;在Olympiad上达到55.1%,相比35.9%提升19.2个百分点[26][32] - 仅用100个种子问题启动的Socratic-Generator-32B,其合成数据质量已超越顶级闭源大模型,其问题有效性达95.6%,接近GPT-5的95.8%,远超其基座模型Qwen3-32B的89.1%[27][28] 工程价值与实施细节 - 训练流程高度工程友好,Solver训练仅需8×NVIDIA H20 GPU,Teacher推理使用16×AMD MI308X,具备轻量、可复现、高性价比的特点[30][33] - 种子选择协议精心设计,100个种子问题来自MATH数据集Level 2–4,确保Solver初始成功率在50%上下,并均匀覆盖7个数学子领域,为自进化提供高质量“引信”[19][22][23] - 框架设计通用,可扩展至代码等其他推理领域,评估采用MathRule + LLM Judge双验证机制,确保结果可信[33][34]