文章核心观点 - 上海科学智能研究院与复旦大学联合提出了一种名为LaPha(Latent Poincaré Shaping for Agentic Reinforcement Learning)的新方法,旨在解决大型语言模型(LLM)作为智能体进行推理决策时面临的核心挑战[8] - 该方法的核心创新在于将智能体的行为树映射到LLM自身的潜空间(latent space),并利用双曲几何(Poincaré球)来构造密集的过程奖励、进行策略剪枝和训练价值网络,从而显著提升LLM Agent在复杂推理任务上的性能[8][12][13] 方法原理与创新 - 核心问题识别:传统强化学习在离散动作空间中运行良好,但将LLM的token序列直接视为动作会导致动作空间近乎无限,且大量不同字符串表达同一语义,造成搜索树分支膨胀和效率低下[7][8] - 潜空间映射与几何化:LaPha方法将每个搜索节点LLM的最后一个隐层进行平均池化得到状态向量,以提示词(prompt)的隐向量为原点进行中心化,并将所有状态向量映射到Poincaré球(一种双曲空间模型)内,后续的搜索、奖励、价值和剪枝都在此统一的潜空间上进行[14] - 构造密集过程奖励:在双曲空间中定义几何势函数(取值在0到1之间),该函数值在离搜索树根节点越远、离最近正确解越近时越高,并利用相邻节点间的势能差分作为每一步的过程奖励,从而将稀疏的终点验证信号转化为密集的、可学习的中间信号[18][19][23] - 训练轻量价值网络:在相同的池化隐层状态上附加一个轻量的价值头(线性层加Sigmoid),以几何势函数作为监督信号进行训练,训练完成后,该价值头可在测试时作为蒙特卡洛树搜索的启发式信号,以极低开销引导节点选择和扩展[20][25][26] - 潜空间策略剪枝:在潜空间中根据双曲距离对非终止节点进行聚类,并对每个簇禁用一部分语义近似的重复节点,然后重建搜索前沿继续探索,这能有效减少语义重复探索,提升相同模拟预算下对真正不同思路的覆盖率[28] 性能表现与结果 - 基准测试显著提升:在多个数学推理基准测试中,LaPha方法使不同规模的模型性能获得大幅提升[11] - 对于Qwen2.5-Math-1.5B模型,在MATH-500测试集上准确率从66.0%提升至88.2%,在Gaokao'23 (En)测试集上从46.5%提升至67.7%[24] - 对于Qwen2.5-Math-7B模型,在AIME'24测试集上准确率从10.0%提升至60.0%,在AIME'25测试集上从16.7%提升至53.3%[24] - 对于Qwen2.5-7B基础模型,使用LaPha方法(sg@128)在AIME'24上达到46.7%的准确率,相比仅使用工具(26.7%)或仅使用DAPO方法(36.7%)有显著优势[11] - 超越现有方法:在相同模型和工具条件下,LaPha方法的表现优于DAPO、TORL、TREEPO等其他强化学习方法[11] - 实现测试时扩展:通过训练轻量价值网络,LaPha能够以极低的额外计算开销,在测试时实现大幅度的性能扩展[12][27]
LaPha:你的Agent轨迹其实嵌入在一个Poincaré球?
机器之心·2026-03-18 11:35