智能体系统边做边学
搜索文档
智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式
机器之心· 2025-10-24 17:12
研究背景与动机 - 当前训练语言模型进行复杂任务推理主要有两种方法:训练单一全能模型或依赖静态提示词的智能体系统[11] - 单一模型方法在长链推理、多样化工具调用和动态环境反馈下训练不稳定且缺乏可扩展性[2][14] - 静态智能体系统缺乏学习与适应能力,难以应对复杂场景[2][14] - 研究团队旨在开发具备“边做边学”能力的智能体系统,使其在交互中不断进化[14] AgentFlow框架核心创新 - 提出模块化智能体结构,由四个具备记忆能力的专门化智能体协同配合:规划器、执行器、验证器和生成器[15][19] - 关键创新在于规划器并非固定不变,而是在智能体交互的“流”中实时进行on-policy优化,实现自适应进化[15] - 该方法将智能体协作推理与强化学习融为一体,形成“动态共振”效应,提升长期规划能力、工具调用效率和动态推理深度[4][15] Flow-GRPO训练算法 - 核心挑战是解决长时跨度且奖励稀疏条件下的多轮信用分配问题[19] - 提出动作级别的多轮推理优化目标,将轨迹最终结果的成功或失败信号广播至每一步[19][20] - 该方法将复杂的多轮强化学习问题转化为一系列可处理的单轮策略更新,缓解奖励稀疏问题并提升训练效率[20] 实验性能与结果 - 在10个跨领域基准测试上进行评估,涵盖知识检索、智能体任务、数学推理和科学推理四大类[21][22] - 以Qwen-2.5-7B-Instruct为基座模型的AgentFlow在各项基准上均超越现有领先方法[22] - 具体性能提升:知识检索提升+14.9%,智能体推理提升+14.0%,数学推理提升+14.5%,科学推理提升+4.1%[24] - 7B参数的AgentFlow在多个任务上超过了约200B参数的GPT-4o和405B的Llama-3.1,在搜索任务上领先8.2%,在智能体任务上领先15.8%[3][27] 关键发现与行业意义 - 模型规模不是唯一答案,合理的系统设计和训练方法可能比单纯堆砌参数更有效[27] - “在流中学习”至关重要,若采用离线监督学习训练规划器,性能平均降低19%[27][28] - 经过训练的规划器能自主发现新的解决路径,如组合使用不同搜索工具的模式[30] - 对于长难任务能增加有效推理步数提升正确率,而不会所有任务都随最大轮数限制延长推理步数[33][35] - 为智能体训练提供新思路:让智能体在系统中自我适应与持续学习,通过群体智能与“边做边学”范式结合实现协同演化优化[36]