AI在线强化学习“边做边学”,斯坦福团队让7B小模型性能飙升,甚至超越GPT-4o
 36氪·2025-10-24 20:45
技术框架与核心创新 - AgentFlow是一种通过在线强化学习持续优化智能体系统的新范式,由规划器、执行器、验证器、生成器四个专业智能体通过共享内存协作 [1] - 其核心创新Flow-GRPO算法能在智能体交互的“流”中对规划器进行实时在线策略优化,实现决策过程的自适应进化 [1][14] - Flow-GRPO通过将轨迹最终结果的成功或失败信号广播至每一步,将复杂的多轮强化学习问题转化为可处理的单轮策略更新,缓解了奖励稀疏问题并提升训练效率 [15] 性能表现与基准测试结果 - 以Qwen-2.5-7B-Instruct为基座模型的AgentFlow在10个基准测试中表现突出:搜索任务提升14.9%、智能体任务提升14.0%、数学任务提升14.5%、科学任务提升4.1% [4][19] - 该7B参数模型在多项任务上超越了规模大50倍的模型,如在搜索任务上领先GPT-4o约8.2%,在智能体任务上领先15.8% [21] - 配备Flow-GRPO的AgentFlow在搜索密集型任务上平均得分达57.3,在数学推理任务上平均得分达51.5,显著优于其他基准方法 [19][23] 技术优势与行业影响 - 该框架表明合理的系统设计和训练方法可能比单纯堆叠模型参数更有效,展现了“以小搏大”的潜力 [21] - 对比实验显示,采用离线监督学习训练规划器会导致性能平均下降19%,凸显了在真实交互环境中进行在线学习的必要性 [22] - 经过训练的系统能自主发现新的工具使用模式,如组合使用不同搜索工具,这些模式在未训练的推理流中几乎未出现 [25] - 业界观点认为多智能体流类似于“相位耦合推理”,并期待“协同能力”取代“规模”成为衡量智能的新指标 [6]