Chain-of-Agents: OPPO推出通用智能体模型新范式，多榜单SOTA，模型代码数据全开源

文章核心观点 - 提出全新智能体推理范式Chain-of-Agents（CoA）以解决传统多智能体系统通信效率低、泛化能力有限及缺乏数据驱动学习能力的问题 [2][3] - CoA框架通过层次化智能体架构实现端到端多智能体协作显著降低推理成本并提升性能 [6][8] - 基于CoA训练的Agent Foundation Model（AFM）在近20项复杂任务基准测试中刷新性能记录包括多跳问答、代码生成和数学推理等领域 [6][18][24][25][27] 技术架构 - CoA采用角色型智能体（思考/计划/反思/验证）与工具型智能体（搜索/爬取/代码）的层次化架构支持动态激活机制 [10][13] - 通过多智能体能力蒸馏将OAgents成功轨迹转换为CoA兼容格式生成约87k条SFT轨迹数据用于监督微调 [11][14][15] - 强化学习阶段采用约85k条高质量任务数据通过策略抽样优化高难度任务表现 [16] 性能表现多跳问答任务 - AFM-RL在7个数据集上达成平均性能新高以Qwen-2.5-7B-instruct为基准时平均准确率达45.5% 较ZeroSearch提升6.4% [19] - 多跳问答任务提升显著表明其在任务分解与工具使用方面具有更强能力 [19] 复杂网页搜索任务 - AFM（Qwen-2.5-32B-Instruct）在GAIA基准实现55.4%通过率领先WebSailor 2.2%和WebDancer 3.9% [24] - 在BrowseComp任务以11.1%成功率居32B模型首位 WebWalker任务准确率达63.0% 超过WebThinker-RL 16.5% [24] 数学推理能力 - AFM-RL-7B在五个数学基准平均准确率64.3% 较次优模型SimpleTIR-7B-Multi提升3.6% [26] - AFM-RL-32B平均准确率78.0% 领先ReTool-32B达3.6% 在AIME25和OlympiadBench分别实现10.5%和5.7%绝对提升 [26] 代码生成能力 - AFM-RL-32B在LiveCodeBench v5准确率47.9% CodeContests成绩32.7% 显著超越TIR方法 [6][27][28] - 与基础模型相比 AFM通过RL优化后在7B与32B模型上平均准确率分别提升8.5%和13.2% [27] 效率优势 - AFM将推理成本（token消耗）减少高达85.5% 在工具调用效率和token消耗维度均表现最优 [6][33] - 在GAIA数据集测试中 AFM工具调用次数最少且提示工程token消耗最低 [33] 技术局限与展望 - 当前角色型智能体类型需预先定义未来需探索动态角色生成机制以增强未知任务适应性 [39] - 现有工具以文本为主需融合图像/语音等模态工具扩展应用场景 [39] - 针对长周期任务需设计更高效的智能体状态记忆与历史轨迹复用策略 [39]