自进化训练
搜索文档
Agent-World:扩展真实世界环境,让智能体与环境协同进化!
机器之心· 2026-05-05 12:02AI 处理中...
随着 MCP 、 Agent Skills 与各类 Harness 的快速发展,大模型能轻松调用成百上千种外部工具,但 在 多工具,具备复杂状态、长程交互的任务上仍有明显短板 。 尽管一系列环境扩展方法尝试复刻真实 世界的交互环境(如订票系统,外卖平台),但仍 受限于 环境扩展的规模与真实性 。除此以外,训练 环境造得再多,当智能体在面临新的交互环境时, 若 缺少持续学习的训练算法依旧很难具备泛化性。 为此,本文 提出 Agent-World : 一个通用智能体训练场,将 " 智能体环境探索 " 与 " 自进化训练 " 相结合,形成智能体与环境协同进化的闭环 。 Agent-World 由两个核心模块构成: ( 1 ) 智能环境 - 任务探索 : 通过深度研究智能体,围绕真实世界环境主题,自主从互联网挖掘环 境数据库、生成可执行工具和可校验任务。 ( 2 ) 持续自进化训练 : 通过多环境强化学习训练智能体,并将合成环境视作天然的训练场,自动 诊断智能体的能力短板,针对性地推动环境 / 任务扩展,实现智能体的自进化。 图 1 : Agent-World 总览 :左图 展示 Agent-World 智能体与环境 ...