熵平衡
搜索文档
AEPO:智能体熵平衡策略优化,让探索更稳,推理更深!
机器之心· 2025-11-01 12:22
算法核心创新 - 提出AEPO算法,旨在解决多轮智能体强化学习中探索与稳定性的平衡问题[11] - 系统性揭示了现有熵驱动方法存在的两大问题:高熵Rollout采样坍缩和高熵梯度裁剪[8][11] - 设计两大核心机制:动态熵平衡Rollout采样与熵平衡策略优化[11][16] 技术机制细节 - 动态熵平衡Rollout采样通过熵预监测和连续分支惩罚实现探索预算的自适应分配[16][21][27] - 熵预监测基于信息增益理论,根据问题与工具的不确定性动态调整全局采样与分支采样的预算比例[16][17][27] - 连续高熵分支惩罚机制通过动态分支概率避免单一轨迹过度分支,实验显示AEPO可覆盖全部8条预算轨迹,而ARPO仅覆盖2-3条[21][26] - 熵平衡策略优化引入梯度停止操作和熵感知优势估计,保护高熵token的梯度不被裁剪[22][25][28] - 熵感知优势估计融合准确率优势和熵优势,引导模型优先学习高价值探索行为,其中熵优势权重α设为0.3[28][31] 性能表现与实验结果 - 在14个跨领域基准上显著优于七种主流强化学习算法[4][12][29] - 在深度搜索任务中表现突出:GAIA的Pass@5达65.0%,Humanity's Last Exam达26.0%,WebWalkerQA达70.0%[4][30] - 在Qwen3-14B模型上,AEPO在深度搜索任务Pass@1达47.6%,Pass@5达65.0%[30][36] - 在计算推理任务中,AEPO在Llama3.1-8B基座上平均准确率达56.3%,在Owen2.5-7B基座上达60.1%,均优于对比算法[33] - AEPO在Pass@1上较ARPO平均提升3.9%,在Pass@5上平均提升5.8%[36] - 训练稳定性显著提升,熵损失全程维持高位且稳定,解决了ARPO在训练后期的熵波动问题[35][37] 行业影响与认可度 - 该研究由中国人民大学高瓴人工智能学院与快手Klear语言大模型团队联合提出[2][40] - 在X平台获得极高关注度,Github仓库已获星标700余枚,并荣登Huggingface Paper日榜第二名[6] - 算法代码、开源数据及模型已在Github和Huggingface平台公开[10]