Workflow
AI在线强化学习“边做边学”,斯坦福团队让7B小模型性能飙升,甚至超越GPT-4o
量子位·2025-10-24 11:53

文章核心观点 - AgentFlow是一种通过在线强化学习优化智能体系统的新范式,其核心创新在于由四个专业化智能体通过共享内存协作,并利用Flow-GRPO算法对规划器进行实时优化,从而显著提升复杂问题的推理能力[1] - 基于Qwen-2.5-7B-Instruct小模型的AgentFlow在多项基准测试中表现卓越,甚至在部分任务上超越了参数规模大50倍的GPT-4o(约200B)和Llama3.1-405B等超大模型,证明了通过系统设计和训练方法创新可以实现“以小搏大”[3][4][23][27] - 实验结果表明,“在流中学习”(在线优化)是实现高效推理的关键,对比离线监督学习(SFT)性能平均降低19%,而Flow-GRPO训练能使系统自主发现新的工具使用模式并动态调整推理深度,展现出更强的适应性和稳定性[28][29][33][35] 技术框架与创新 - AgentFlow框架由四个具备记忆能力的专门化智能体组成:规划器(分析任务、选择工具)、执行器(调用工具)、验证器(评估中间结果)和生成器(生成最终答案),它们通过共享内存进行协作[14][17][18] - 关键技术创新是Flow-GRPO算法,该算法通过将轨迹最终结果的成功或失败信号广播至每一步,将复杂的多轮强化学习问题转化为可处理的单轮策略更新,有效解决了长时跨度、奖励稀疏条件下的多轮信用分配挑战[20] - 系统实现了“流中强化学习”,规划器能在智能体交互过程中根据环境变化及其他智能体的反馈进行实时on-policy优化,决策过程随之自适应进化,优化结果被整合到系统记忆形成闭环[16][19] 性能表现与基准测试 - 在10个基准测试中,以7B参数模型为基础的AgentFlow相比基线在搜索任务提升14.9%、智能体任务提升14.0%、数学任务提升14.5%、科学任务提升4.1%[3][25] - 具体数据表现:在搜索密集型任务(Bamboogle、2Wiki、HotpotQA、Musique)上,AgentFlow(w/ Flow-GRPO)平均得分达57.3,显著高于GPT-4o的49.1;在智能体任务(GAIA)上得分为33.1,高于GPT-4o的17.3[26][27] - 在数学推理任务(AIME24、AMC23、GameOf24)上,AgentFlow(w/ Flow-GRPO)平均得分达51.5,超越GPT-4o的35.1;在科学推理任务(GPQA、MedQA)上平均得分为63.5,也高于GPT-4o的45.5[26] 行业意义与影响 - 该研究标志着智能体系统的发展重点可能从单纯追求模型参数规模转向更注重合理的系统设计、专业化智能体协作以及持续在线学习能力,为行业提供了新的发展思路[27][37][38] - 多智能体流(multi-agent flow)所体现的“协同能力”有望取代“规模”成为衡量智能的新指标,模块化协作与流中强化学习的结合为构建更稳定、高效的多轮智能体系统提供了可行路径[9][30] - 尽管从研究到实际应用仍有距离,但AgentFlow展示了智能体AI在复杂决策与持续优化方面的巨大潜力,为垂直领域与通用场景的智能体应用开辟了新的想象空间[39]