告别昂贵账单,Token直降68%,多智能体动态协作编程来了
机器之心·2026-04-05 12:34

行业背景与现有挑战 - 软件开发范式正从“人写代码”转向“人指挥智能体写代码”,以Claude Code、OpenClaw为代表的系统让智能体能够自主完成编码、调试等完整任务流程 [2] - 面对系统级开发或竞赛级算法等复杂问题,单一模型能力边界明显,多智能体协作成为主流范式 [2] - 现有主流方法存在两类典型路径:一类如Claude Code的Agent Teams,通过并行调用多个模型提升能力,但带来极高的Token成本;另一类如OpenClaw,通过技能组合与流程编排实现多智能体管理,工程上更可控 [2] - 现有方法的协作结构大多依赖预定义规则或静态流程,解决的是“如何组织调用”,而非“如何根据任务动态调整协作方式”,导致智能体冗余通讯与大量Token消耗,最终给用户带来极高的自主编程成本 [3] 核心解决方案:AgentConductor框架 - 上海交通大学i-WiN团队提出多智能体框架AgentConductor,通过引入一个经过强化学习训练的3B参数指挥智能体,从根本上解决动态协作问题 [3] - AgentConductor会先评估任务难度,并生成一张以YAML表示的交互拓扑图,使简单任务使用轻量团队,复杂任务使用更复杂的交互图,实现能力与成本的自适应匹配 [3] - AgentConductor并非一次性规划,当生成代码运行失败时,指挥智能体会根据环境反馈的错误信息,结合历史记忆,对拓扑进行端到端重新生成,从而探索新的协作形式 [5] - 该方法在显著提升编码准确率(+14.6%)的同时,将Token成本降低了68% [5] 核心特色与方法 - 基于YAML的新型多智能体交互图结构:使用YAML结构化表示交互图,使其既具备可读性,又支持程序化校验与约束,并可由大模型直接生成,便于理解与落地 [11][12] - 创新的交互形式:融合多种拓扑优势,支持层内并行和跨层通讯,且每个智能体可任意链接之前的历史节点,在提升表达能力的同时避免不必要的通信开销 [13] - 两阶段训练范式:采用监督微调(SFT)和基于GRPO的多轮端到端Agentic强化学习训练,仅训练一个指挥智能体 [15] - SFT阶段:基于GPT-4o生成的4,500个高质量拓扑样本(覆盖三档难度),赋予基础模型拓扑先验 [15] - 强化学习阶段:将环境反馈的代码报错和多轮的拓扑文本一起作为轨迹用于智能体的强化学习训练,基于GRPO算法优化模型的拓扑生成策略以最大化复合奖励,最终实现低Token成本的高质量代码生成 [15] - 拓扑密度评估函数:为实现任务自适应,将问题分成三档难度,并根据从Token成本到拓扑密度的形式化映射,提出了拓扑密度评估函数并作为奖励函数一部分,综合刻画节点数、边密度与图深度对通信成本的影响 [17] - 通信成本形式化:多智能体系统的平均通信成本可形式化为 C = m(1 + |V| + (2|E|/|V|) + d),其中d为图深度,m为提示词最大长度 [18] 实验结果与性能 - 在三个竞赛级(APPS, LiveCodeBench, CodeContests)与两个基础代码数据集(HumanEval, MBPP)上评估了AgentConductor(基于Qwen-2.5-3B-Instruct模型) [21] - 在APPS数据集上,AgentConductor(3B)的pass@1准确率达到58.8(±0.3),显著超越所有基线方法 [22] - 在基础代码生成任务上,AgentConductor在HumanEval和MBPP上的平均准确率达到96.3(±0.2) [22] - 在成本方面,AgentConductor在APPS数据集上将Completion Token消耗降低至79,800,相比基线减少了最多68% [22][23] - 系统展现出细粒度难度适配能力:在easy任务上使用极简拓扑(平均3–4节点),在hard任务上自动扩展至8–10节点,而多数基线无论难度均维持固定密度 [23] 行业意义与范式转变 - AgentConductor证明,智能协作的关键不在于智能体数量,更在于结构的适应性,标志着多智能体研究从“静态工作流”迈向“动态生态系统” [24] - 该框架代表了一种新范式:将多智能体协作视为可学习、可演化的结构化决策过程 [24] - 通过将任务难度、执行反馈与通信成本统一纳入强化学习框架,实现了准确率与效率的协同提升 [24] - 这项工作在国际AI社区(X)引发广泛关注,被知名AI分享博主DAIR.AI当日置顶宣传并评为2026年2月23日–3月1日Top AI Papers [8]

告别昂贵账单,Token直降68%,多智能体动态协作编程来了 - Reportify