Workflow
AgentFlow
icon
搜索文档
AI在线强化学习“边做边学”,斯坦福团队让7B小模型性能飙升,甚至超越GPT-4o
36氪· 2025-10-24 20:45
技术框架与核心创新 - AgentFlow是一种通过在线强化学习持续优化智能体系统的新范式,由规划器、执行器、验证器、生成器四个专业智能体通过共享内存协作 [1] - 其核心创新Flow-GRPO算法能在智能体交互的“流”中对规划器进行实时在线策略优化,实现决策过程的自适应进化 [1][14] - Flow-GRPO通过将轨迹最终结果的成功或失败信号广播至每一步,将复杂的多轮强化学习问题转化为可处理的单轮策略更新,缓解了奖励稀疏问题并提升训练效率 [15] 性能表现与基准测试结果 - 以Qwen-2.5-7B-Instruct为基座模型的AgentFlow在10个基准测试中表现突出:搜索任务提升14.9%、智能体任务提升14.0%、数学任务提升14.5%、科学任务提升4.1% [4][19] - 该7B参数模型在多项任务上超越了规模大50倍的模型,如在搜索任务上领先GPT-4o约8.2%,在智能体任务上领先15.8% [21] - 配备Flow-GRPO的AgentFlow在搜索密集型任务上平均得分达57.3,在数学推理任务上平均得分达51.5,显著优于其他基准方法 [19][23] 技术优势与行业影响 - 该框架表明合理的系统设计和训练方法可能比单纯堆叠模型参数更有效,展现了“以小搏大”的潜力 [21] - 对比实验显示,采用离线监督学习训练规划器会导致性能平均下降19%,凸显了在真实交互环境中进行在线学习的必要性 [22] - 经过训练的系统能自主发现新的工具使用模式,如组合使用不同搜索工具,这些模式在未训练的推理流中几乎未出现 [25] - 业界观点认为多智能体流类似于“相位耦合推理”,并期待“协同能力”取代“规模”成为衡量智能的新指标 [6]
智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式
机器之心· 2025-10-24 17:12
研究背景与动机 - 当前训练语言模型进行复杂任务推理主要有两种方法:训练单一全能模型或依赖静态提示词的智能体系统[11] - 单一模型方法在长链推理、多样化工具调用和动态环境反馈下训练不稳定且缺乏可扩展性[2][14] - 静态智能体系统缺乏学习与适应能力,难以应对复杂场景[2][14] - 研究团队旨在开发具备“边做边学”能力的智能体系统,使其在交互中不断进化[14] AgentFlow框架核心创新 - 提出模块化智能体结构,由四个具备记忆能力的专门化智能体协同配合:规划器、执行器、验证器和生成器[15][19] - 关键创新在于规划器并非固定不变,而是在智能体交互的“流”中实时进行on-policy优化,实现自适应进化[15] - 该方法将智能体协作推理与强化学习融为一体,形成“动态共振”效应,提升长期规划能力、工具调用效率和动态推理深度[4][15] Flow-GRPO训练算法 - 核心挑战是解决长时跨度且奖励稀疏条件下的多轮信用分配问题[19] - 提出动作级别的多轮推理优化目标,将轨迹最终结果的成功或失败信号广播至每一步[19][20] - 该方法将复杂的多轮强化学习问题转化为一系列可处理的单轮策略更新,缓解奖励稀疏问题并提升训练效率[20] 实验性能与结果 - 在10个跨领域基准测试上进行评估,涵盖知识检索、智能体任务、数学推理和科学推理四大类[21][22] - 以Qwen-2.5-7B-Instruct为基座模型的AgentFlow在各项基准上均超越现有领先方法[22] - 具体性能提升:知识检索提升+14.9%,智能体推理提升+14.0%,数学推理提升+14.5%,科学推理提升+4.1%[24] - 7B参数的AgentFlow在多个任务上超过了约200B参数的GPT-4o和405B的Llama-3.1,在搜索任务上领先8.2%,在智能体任务上领先15.8%[3][27] 关键发现与行业意义 - 模型规模不是唯一答案,合理的系统设计和训练方法可能比单纯堆砌参数更有效[27] - “在流中学习”至关重要,若采用离线监督学习训练规划器,性能平均降低19%[27][28] - 经过训练的规划器能自主发现新的解决路径,如组合使用不同搜索工具的模式[30] - 对于长难任务能增加有效推理步数提升正确率,而不会所有任务都随最大轮数限制延长推理步数[33][35] - 为智能体训练提供新思路:让智能体在系统中自我适应与持续学习,通过群体智能与“边做边学”范式结合实现协同演化优化[36]
AI在线强化学习“边做边学”,斯坦福团队让7B小模型性能飙升,甚至超越GPT-4o
量子位· 2025-10-24 11:53
文章核心观点 - AgentFlow是一种通过在线强化学习优化智能体系统的新范式,其核心创新在于由四个专业化智能体通过共享内存协作,并利用Flow-GRPO算法对规划器进行实时优化,从而显著提升复杂问题的推理能力[1] - 基于Qwen-2.5-7B-Instruct小模型的AgentFlow在多项基准测试中表现卓越,甚至在部分任务上超越了参数规模大50倍的GPT-4o(约200B)和Llama3.1-405B等超大模型,证明了通过系统设计和训练方法创新可以实现“以小搏大”[3][4][23][27] - 实验结果表明,“在流中学习”(在线优化)是实现高效推理的关键,对比离线监督学习(SFT)性能平均降低19%,而Flow-GRPO训练能使系统自主发现新的工具使用模式并动态调整推理深度,展现出更强的适应性和稳定性[28][29][33][35] 技术框架与创新 - AgentFlow框架由四个具备记忆能力的专门化智能体组成:规划器(分析任务、选择工具)、执行器(调用工具)、验证器(评估中间结果)和生成器(生成最终答案),它们通过共享内存进行协作[14][17][18] - 关键技术创新是Flow-GRPO算法,该算法通过将轨迹最终结果的成功或失败信号广播至每一步,将复杂的多轮强化学习问题转化为可处理的单轮策略更新,有效解决了长时跨度、奖励稀疏条件下的多轮信用分配挑战[20] - 系统实现了“流中强化学习”,规划器能在智能体交互过程中根据环境变化及其他智能体的反馈进行实时on-policy优化,决策过程随之自适应进化,优化结果被整合到系统记忆形成闭环[16][19] 性能表现与基准测试 - 在10个基准测试中,以7B参数模型为基础的AgentFlow相比基线在搜索任务提升14.9%、智能体任务提升14.0%、数学任务提升14.5%、科学任务提升4.1%[3][25] - 具体数据表现:在搜索密集型任务(Bamboogle、2Wiki、HotpotQA、Musique)上,AgentFlow(w/ Flow-GRPO)平均得分达57.3,显著高于GPT-4o的49.1;在智能体任务(GAIA)上得分为33.1,高于GPT-4o的17.3[26][27] - 在数学推理任务(AIME24、AMC23、GameOf24)上,AgentFlow(w/ Flow-GRPO)平均得分达51.5,超越GPT-4o的35.1;在科学推理任务(GPQA、MedQA)上平均得分为63.5,也高于GPT-4o的45.5[26] 行业意义与影响 - 该研究标志着智能体系统的发展重点可能从单纯追求模型参数规模转向更注重合理的系统设计、专业化智能体协作以及持续在线学习能力,为行业提供了新的发展思路[27][37][38] - 多智能体流(multi-agent flow)所体现的“协同能力”有望取代“规模”成为衡量智能的新指标,模块化协作与流中强化学习的结合为构建更稳定、高效的多轮智能体系统提供了可行路径[9][30] - 尽管从研究到实际应用仍有距离,但AgentFlow展示了智能体AI在复杂决策与持续优化方面的巨大潜力,为垂直领域与通用场景的智能体应用开辟了新的想象空间[39]