只需1/4预算，性能反超基线：阿里高德提出Tree-GRPO，高效破解智能体RL难题

文章核心观点 - 阿里高德提出Tree-GRPO方法，通过将链式采样改造为智能体步骤级树搜索，解决Agentic RL中Rollout预算高和奖励信号稀疏两大痛点 [2] - 该方法在相同预算下通过共享前缀、一次扩展多个分支获得更丰富的有效轨迹，并能仅凭最终奖励回溯出过程级偏好信号 [2] - 在11个知识密集型任务中，Tree-GRPO显著优于链式RL方法，在Qwen2.5-1.5b模型上多跳问答性能提升69%，且能在1/4预算下超越基线 [2][15] Agentic RL的技术瓶颈 - 现有方法面临高昂的Rollout预算，多回合交互轨迹包含成千上万Token和多次工具调用，链式采样冗余高且外部工具费用不菲 [12] - 多轮长轨迹的监督信号稀疏，仅能依赖最终奖励评估整条轨迹，难以定位具体步骤的贡献，导致训练信号未同比增加 [12] Tree-GRPO方法原理 - 以智能体步骤为树节点单位进行搜索，每个节点对应完整的思考、行动、观察步骤，采用先初始化M条轨迹后扩张N个节点的策略 [8] - 通过重复扩张步骤L次，在既定预算下获得分散在多棵树中的反应轨迹，提升采样效率 [8] - 基于树结构能够从叶节点奖励差值回溯出步骤级偏好目标，形式与离线DPO优化目标一致 [10][11] 实验性能表现 - 在Qwen2.5-1.5b模型上，Tree-GRPO多跳问答平均得分19.1，较GRPO基线的11.3提升69%；单跳问答平均得分47.5，较基线43.4提升9.5% [15] - 在Qwen2.5-3b模型上，多跳问答平均得分36.8，较基线31.8提升16%；单跳问答平均得分50.0，较基线48.1提升4.0% [15] - 在Llama3.2-3b模型上，多跳问答平均得分36.8，较基线26.7提升38%；单跳问答平均得分50.0，较基线48.7提升2.7% [15] 预算效率优势 - 在预算受限情况下（每提示2条轨迹），Tree-based方法多跳问答平均得分31.6，较Chain-based的14.9提升112% [19] - 仅用1/4预算时，Tree-GRPO取得36.8分，优于Chain-based方法33.9分，证明其高效性 [19] - 在不同预算设定下（2/4/8/16条轨迹），Tree-based方法均稳定优于Chain-based方法 [19] 技术应用前景 - 树搜索方法能激发模型学习更多轮交互次数，对复杂Agent任务具有重要意义 [19] - 该方法为Agentic RL提供了探索与利用权衡的新思路，动态调整权重可进一步优化学习效果 [24]