只需1/4预算,性能反超基线:阿里高德提出Tree-GRPO,高效破解智能体RL难题
机器之心·2025-10-14 07:56

文章核心观点 - 阿里高德提出Tree-GRPO方法,通过将链式采样改造为智能体步骤级树搜索,解决Agentic RL中Rollout预算高和奖励信号稀疏两大痛点 [2] - 该方法在相同预算下通过共享前缀、一次扩展多个分支获得更丰富的有效轨迹,并能仅凭最终奖励回溯出过程级偏好信号 [2] - 在11个知识密集型任务中,Tree-GRPO显著优于链式RL方法,在Qwen2.5-1.5b模型上多跳问答性能提升69%,且能在1/4预算下超越基线 [2][15] Agentic RL的技术瓶颈 - 现有方法面临高昂的Rollout预算,多回合交互轨迹包含成千上万Token和多次工具调用,链式采样冗余高且外部工具费用不菲 [12] - 多轮长轨迹的监督信号稀疏,仅能依赖最终奖励评估整条轨迹,难以定位具体步骤的贡献,导致训练信号未同比增加 [12] Tree-GRPO方法原理 - 以智能体步骤为树节点单位进行搜索,每个节点对应完整的思考、行动、观察步骤,采用先初始化M条轨迹后扩张N个节点的策略 [8] - 通过重复扩张步骤L次,在既定预算下获得分散在多棵树中的反应轨迹,提升采样效率 [8] - 基于树结构能够从叶节点奖励差值回溯出步骤级偏好目标,形式与离线DPO优化目标一致 [10][11] 实验性能表现 - 在Qwen2.5-1.5b模型上,Tree-GRPO多跳问答平均得分19.1,较GRPO基线的11.3提升69%;单跳问答平均得分47.5,较基线43.4提升9.5% [15] - 在Qwen2.5-3b模型上,多跳问答平均得分36.8,较基线31.8提升16%;单跳问答平均得分50.0,较基线48.1提升4.0% [15] - 在Llama3.2-3b模型上,多跳问答平均得分36.8,较基线26.7提升38%;单跳问答平均得分50.0,较基线48.7提升2.7% [15] 预算效率优势 - 在预算受限情况下(每提示2条轨迹),Tree-based方法多跳问答平均得分31.6,较Chain-based的14.9提升112% [19] - 仅用1/4预算时,Tree-GRPO取得36.8分,优于Chain-based方法33.9分,证明其高效性 [19] - 在不同预算设定下(2/4/8/16条轨迹),Tree-based方法均稳定优于Chain-based方法 [19] 技术应用前景 - 树搜索方法能激发模型学习更多轮交互次数,对复杂Agent任务具有重要意义 [19] - 该方法为Agentic RL提供了探索与利用权衡的新思路,动态调整权重可进一步优化学习效果 [24]