Workflow
熵控制强化学习
icon
搜索文档
多轮Agent训练遇到级联失效?熵控制强化学习来破局
机器之心· 2025-10-17 16:12
在训练多轮 LLM Agent 时(如需要 30 + 步交互才能完成单个任务的场景),研究者遇到了一个严重的训练不稳定问题:标准的强化学习方法(PPO/GRPO)在稀 疏奖励环境下表现出剧烈的熵值震荡,导致训练曲线几乎不收敛。 研究者 发现这是一种独特的「 探索 - 利用级联失效 」(exploration-exploitation cascade failure)现象。具体表现为在 早期阶段 ,过度探索导致策略熵值失控上 升,但奖励信号几乎没有提升,探索没有转化为有效学习;在 后期阶段 ,早期的不稳定性传播到后续步骤,熵值持续高位震荡,无法形成连贯的决策策略。 为此, 研究者 提出了 Entropy-regularized Policy Optimization (EPO) 框架,包含三个核心机制: 多轮熵正则化、熵平滑正则器和自适应权重 。实验结果上,在 ScienceWorld 环境,PPO+EPO 相比 PPO 最大提升 152%;在 ALFWorld 环境,GRPO+EPO 相比 GRPO 最大提升 19.8%。同时,观测训练的曲线,发现训练稳定性 显著提高,方差明显降低。 论文标题: EPO: E ...