LaPha：你的Agent轨迹其实嵌入在一个Poincaré球？

文章核心观点 - 上海科学智能研究院与复旦大学联合提出了一种名为LaPha（Latent Poincaré Shaping for Agentic Reinforcement Learning）的新方法，旨在解决大型语言模型（LLM）作为智能体进行推理决策时面临的核心挑战[8] - 该方法的核心创新在于将智能体的行为树映射到LLM自身的潜空间（latent space），并利用双曲几何（Poincaré球）来构造密集的过程奖励、进行策略剪枝和训练价值网络，从而显著提升LLM Agent在复杂推理任务上的性能[8][12][13] 方法原理与创新 - 核心问题识别：传统强化学习在离散动作空间中运行良好，但将LLM的token序列直接视为动作会导致动作空间近乎无限，且大量不同字符串表达同一语义，造成搜索树分支膨胀和效率低下[7][8] - 潜空间映射与几何化：LaPha方法将每个搜索节点LLM的最后一个隐层进行平均池化得到状态向量，以提示词（prompt）的隐向量为原点进行中心化，并将所有状态向量映射到Poincaré球（一种双曲空间模型）内，后续的搜索、奖励、价值和剪枝都在此统一的潜空间上进行[14] - 构造密集过程奖励：在双曲空间中定义几何势函数（取值在0到1之间），该函数值在离搜索树根节点越远、离最近正确解越近时越高，并利用相邻节点间的势能差分作为每一步的过程奖励，从而将稀疏的终点验证信号转化为密集的、可学习的中间信号[18][19][23] - 训练轻量价值网络：在相同的池化隐层状态上附加一个轻量的价值头（线性层加Sigmoid），以几何势函数作为监督信号进行训练，训练完成后，该价值头可在测试时作为蒙特卡洛树搜索的启发式信号，以极低开销引导节点选择和扩展[20][25][26] - 潜空间策略剪枝：在潜空间中根据双曲距离对非终止节点进行聚类，并对每个簇禁用一部分语义近似的重复节点，然后重建搜索前沿继续探索，这能有效减少语义重复探索，提升相同模拟预算下对真正不同思路的覆盖率[28] 性能表现与结果 - 基准测试显著提升：在多个数学推理基准测试中，LaPha方法使不同规模的模型性能获得大幅提升[11] - 对于Qwen2.5-Math-1.5B模型，在MATH-500测试集上准确率从66.0%提升至88.2%，在Gaokao'23 (En)测试集上从46.5%提升至67.7%[24] - 对于Qwen2.5-Math-7B模型，在AIME'24测试集上准确率从10.0%提升至60.0%，在AIME'25测试集上从16.7%提升至53.3%[24] - 对于Qwen2.5-7B基础模型，使用LaPha方法（sg@128）在AIME'24上达到46.7%的准确率，相比仅使用工具（26.7%）或仅使用DAPO方法（36.7%）有显著优势[11] - 超越现有方法：在相同模型和工具条件下，LaPha方法的表现优于DAPO、TORL、TREEPO等其他强化学习方法[11] - 实现测试时扩展：通过训练轻量价值网络，LaPha能够以极低的额外计算开销，在测试时实现大幅度的性能扩展[12][27]