Workflow
智能体训练
icon
搜索文档
交互扩展时代来临:创智复旦字节重磅发布AgentGym-RL,昇腾加持,开创智能体训练新范式
机器之心· 2025-09-11 12:53
研究背景与核心理念 - 人工智能正从依赖海量标注数据的“数据密集型”时代,转向通过在真实环境中主动探索、积累经验的“经验密集型”时代 [1][11] - 环境的多样性与真实性是智能体获得泛化能力、应对复杂任务的关键前提,缺乏丰富环境将难以形成稳健的决策策略 [1] AgentGym-RL框架核心创新 - 该框架是首个无需监督微调、具备统一端到端架构、支持交互式多轮训练的LLM智能体强化学习框架 [3] - 框架采用模块化设计,包含环境、代理和训练三个核心组件,支持多种主流RL算法(如PPO、GRPO)并涵盖网页导航、科学探索等五大类真实场景 [16][19][21] - 框架通过标准化环境操作接口和分布式并行计算架构,为LLM智能体构建了一个能持续产生“有效经验”的可复现、可扩展生态 [13] ScalingInter-RL方法突破 - 创新性地提出了“扩展环境交互”新路径,通过分阶段增加模型最长交互轮次限制,使智能体能逐步从掌握基础技能过渡到解决复杂任务 [3][4][23] - 该方法在训练稳定性与效率上显著优于传统方案,在TextCraft任务中以传统方法60%的步数达成89%的成功率,WebArena任务中单位计算量性能增益是PPO算法的1.8倍 [32] 实验性能表现 - 仅7B参数的ScalingInter-7B模型在五种测试环境、26项任务中,总体表现超越了100B以上的大型开源模型,并追平了OpenAI o3、谷歌Gemini 2.5 Pro等顶尖商业模型 [5][29] - 在网页导航任务中,ScalingInter-7B模型的总体准确率达到26.00%,大幅超越GPT-4o的16.00%;在科学场景中以57.00%的总体得分创下新纪录,远超排名第二的OpenAI o3模型(41.50%) [29][30][31] - 实验表明,有策略地投入后训练和测试时计算,比单纯增加模型参数更具影响力,7B参数模型性能可优于参数规模近其十倍的更大模型 [35][38] 技术优势与行业意义 - 该研究验证了智能体范式下扩展测试时计算的新路径优于传统仅延长思维链的方法,允许模型依据多轮反馈动态修正策略,形成更结构化的决策流程 [3] - 框架已全面开源,为开源社区提供了自主智能体研发的基础设施,有望推动AI在机器人操作、现实场景规划等更复杂任务中的应用 [8][50][52]