Workflow
AgentEvolver
icon
搜索文档
周靖人署名,通义实验室开源智能体自进化系统:让模型学会“自我反思”,14B也能越级打怪
量子位· 2025-11-19 13:02
核心观点 - 公司开源了名为AgentEvolver的智能体自进化系统,该系统通过自我提问、自我导航、自我归因三大模块,使智能体能在开放环境中自主演化行为能力 [2] - 该系统在14B模型上将任务平均完成率从29.8%大幅提升至57.6%,性能近乎翻倍,并展现出卓越的跨域泛化能力和高效学习特性 [2][4] 性能表现 - 在14B模型上,AgentEvolver将基准模型的任务平均完成率(avg@8)从29.8%提升至57.6%,最佳尝试(best@8)指标达到76.7% [4] - 在7B模型上,平均完成率从15.8%跃升至45.2%,证明该框架对不同规模模型具有普适性增强能力 [5] - 强化后的14B模型在特定任务上表现已超越未优化的32B乃至更大参数模型,实现越级挑战 [5] - 学习效率极速收敛,达到基线模型90%性能水平时,训练步数在AppWorld任务中减少55.6%,在BFCL任务中减少66.7% [7][8] 技术架构与机制 - 系统本质是利用大语言模型自身理解力,构建数据-探索-反馈的自动化流程,由Master节点统一调度任务生成、轨迹采样、经验总结和模型优化四个阶段 [13][15] - 采用服务化解耦设计,将环境服务、模型服务和执行层拆分为独立服务以支持大规模训练 [16] - 引入上下文管理器应对长程任务挑战,支持基础因果、推理增强、滑动窗口及自主上下文管理四种范式 [18] - 通过自我提问机制主动合成候选任务构建训练课程,打破对外部数据的依赖 [21][23] - 通过自我导航机制将历史探索轨迹抽象为结构化文本经验,使智能体具备举一反三能力,提高探索成功率 [24][25][26][28] - 通过自我归因机制引入基于大语言模型的过程奖励模型,对每个动作步骤进行细粒度因果分析和打分,提升策略优化样本效率 [30][31][33] 泛化能力 - 仅使用合成数据训练的模型迁移到全新领域时性能衰减微乎其微,例如在AppWorld上训练的模型直接用于解决BFCL任务时表现良好 [9][10] - 跨域泛化性极强,表明系统真正掌握了通用的工具使用与推理逻辑能力,而非记忆特定环境题库 [11]