智能体强化学习
搜索文档
NeurIPS 2025 | 中科大、港中深、通义千问联合发布CoRT:仅30个样本教会大模型高效推理,token消耗降低50%
机器之心· 2025-11-12 21:23
文章核心观点 - 联合研究团队提出名为CoRT的后训练框架,旨在教会大型语言模型高效利用代码工具进行推理,以解决其在精确数学计算中效率低下和易出错的问题[2][3] - CoRT框架通过创新的数据合成策略和多阶段训练流程,显著提升了模型的数学推理能力和效率,实现了性能与效率的双重飞跃[3][8][20] 方法核心 - CoRT框架核心思想是通过高质量数据和精细化训练,重塑模型与工具的交互模式,使其从低效的“验证”思维转向高效的“计算”思维[8] - 框架采用从“数据冷启动”到“智能体调优”的三步走策略,包括提示工程、多阶段训练流程和强化学习[8][9][13] 数据合成策略 - 研究团队提出名为“提示工程”的全新数据合成策略,在推理路径关键决策点策略性注入引导性提示以纠正模型低效行为[9] - 当模型试图手动进行复杂计算时,提示“用python代码来简化推理”引导其立即计算[10] - 当模型得到代码结果后试图手动验证时,提示“不需要怀疑python计算的准确性”打消其结果不信任[11] - 该方法遵循数据质量重于数量原则,仅手动标注30个高质量样本就为后续训练奠定坚实基础[11] 多阶段训练流程 - 监督微调阶段使用30个“提示工程”样本进行初步微调,让模型快速学习高效交互的基本模式[13] - 拒绝采样微调阶段自动过滤存在不良行为的轨迹,只保留优质轨迹用于进一步训练[13] - 强化学习阶段将模型视为智能体,通过奖励函数让模型在与代码解释器环境的交互中自主学习最优工具使用策略[13] 性能与效率成果 - CoRT为DeepSeek-R1-32B带来4%的绝对精度提升,为1.5B模型带来高达8%的绝对提升[20] - 与纯自然语言推理基线模型相比,CoRT将32B模型的token消耗降低约30%,1.5B模型降低50%[20] - 传统方法中模型将代码用于“验证”占比68.2%,CoRT成功将模型行为转变为以“计算”为核心占比51.1%[20] - 在未见过化学问题测试中,CoRT训练模型能自发使用未在训练中出现过的专业工具库RDKit,使用率高达81.3%[20] 行业意义与展望 - CoRT框架为解决大型语言模型在精确推理领域的短板提供了高样本效率、高计算效率的全新路径[16] - 该工作展示了构建更强大、更可靠、更经济的AI智能体系统的巨大潜力[17] - 为AI在科学发现、教育辅助、工程设计等需要精确推理领域的落地应用扫清了障碍[17]
AEPO:智能体熵平衡策略优化,让探索更稳,推理更深!
机器之心· 2025-11-01 12:22
算法核心创新 - 提出AEPO算法,旨在解决多轮智能体强化学习中探索与稳定性的平衡问题[11] - 系统性揭示了现有熵驱动方法存在的两大问题:高熵Rollout采样坍缩和高熵梯度裁剪[8][11] - 设计两大核心机制:动态熵平衡Rollout采样与熵平衡策略优化[11][16] 技术机制细节 - 动态熵平衡Rollout采样通过熵预监测和连续分支惩罚实现探索预算的自适应分配[16][21][27] - 熵预监测基于信息增益理论,根据问题与工具的不确定性动态调整全局采样与分支采样的预算比例[16][17][27] - 连续高熵分支惩罚机制通过动态分支概率避免单一轨迹过度分支,实验显示AEPO可覆盖全部8条预算轨迹,而ARPO仅覆盖2-3条[21][26] - 熵平衡策略优化引入梯度停止操作和熵感知优势估计,保护高熵token的梯度不被裁剪[22][25][28] - 熵感知优势估计融合准确率优势和熵优势,引导模型优先学习高价值探索行为,其中熵优势权重α设为0.3[28][31] 性能表现与实验结果 - 在14个跨领域基准上显著优于七种主流强化学习算法[4][12][29] - 在深度搜索任务中表现突出:GAIA的Pass@5达65.0%,Humanity's Last Exam达26.0%,WebWalkerQA达70.0%[4][30] - 在Qwen3-14B模型上,AEPO在深度搜索任务Pass@1达47.6%,Pass@5达65.0%[30][36] - 在计算推理任务中,AEPO在Llama3.1-8B基座上平均准确率达56.3%,在Owen2.5-7B基座上达60.1%,均优于对比算法[33] - AEPO在Pass@1上较ARPO平均提升3.9%,在Pass@5上平均提升5.8%[36] - 训练稳定性显著提升,熵损失全程维持高位且稳定,解决了ARPO在训练后期的熵波动问题[35][37] 行业影响与认可度 - 该研究由中国人民大学高瓴人工智能学院与快手Klear语言大模型团队联合提出[2][40] - 在X平台获得极高关注度,Github仓库已获星标700余枚,并荣登Huggingface Paper日榜第二名[6] - 算法代码、开源数据及模型已在Github和Huggingface平台公开[10]
只需1/4预算,性能反超基线:阿里高德提出Tree-GRPO,高效破解智能体RL难题
机器之心· 2025-10-14 07:56
文章核心观点 - 阿里高德提出Tree-GRPO方法,通过将链式采样改造为智能体步骤级树搜索,解决Agentic RL中Rollout预算高和奖励信号稀疏两大痛点 [2] - 该方法在相同预算下通过共享前缀、一次扩展多个分支获得更丰富的有效轨迹,并能仅凭最终奖励回溯出过程级偏好信号 [2] - 在11个知识密集型任务中,Tree-GRPO显著优于链式RL方法,在Qwen2.5-1.5b模型上多跳问答性能提升69%,且能在1/4预算下超越基线 [2][15] Agentic RL的技术瓶颈 - 现有方法面临高昂的Rollout预算,多回合交互轨迹包含成千上万Token和多次工具调用,链式采样冗余高且外部工具费用不菲 [12] - 多轮长轨迹的监督信号稀疏,仅能依赖最终奖励评估整条轨迹,难以定位具体步骤的贡献,导致训练信号未同比增加 [12] Tree-GRPO方法原理 - 以智能体步骤为树节点单位进行搜索,每个节点对应完整的思考、行动、观察步骤,采用先初始化M条轨迹后扩张N个节点的策略 [8] - 通过重复扩张步骤L次,在既定预算下获得分散在多棵树中的反应轨迹,提升采样效率 [8] - 基于树结构能够从叶节点奖励差值回溯出步骤级偏好目标,形式与离线DPO优化目标一致 [10][11] 实验性能表现 - 在Qwen2.5-1.5b模型上,Tree-GRPO多跳问答平均得分19.1,较GRPO基线的11.3提升69%;单跳问答平均得分47.5,较基线43.4提升9.5% [15] - 在Qwen2.5-3b模型上,多跳问答平均得分36.8,较基线31.8提升16%;单跳问答平均得分50.0,较基线48.1提升4.0% [15] - 在Llama3.2-3b模型上,多跳问答平均得分36.8,较基线26.7提升38%;单跳问答平均得分50.0,较基线48.7提升2.7% [15] 预算效率优势 - 在预算受限情况下(每提示2条轨迹),Tree-based方法多跳问答平均得分31.6,较Chain-based的14.9提升112% [19] - 仅用1/4预算时,Tree-GRPO取得36.8分,优于Chain-based方法33.9分,证明其高效性 [19] - 在不同预算设定下(2/4/8/16条轨迹),Tree-based方法均稳定优于Chain-based方法 [19] 技术应用前景 - 树搜索方法能激发模型学习更多轮交互次数,对复杂Agent任务具有重要意义 [19] - 该方法为Agentic RL提供了探索与利用权衡的新思路,动态调整权重可进一步优化学习效果 [24]