核心观点 - 港大与camel-ai等机构联合提出Workforce多智能体框架及OWL训练方法,在GAIA基准测试中取得69.70%准确率,超越商业系统及开源方案[1][18] - 该框架通过解耦设计解决多智能体系统跨领域迁移难题,实现模块化架构与低成本迁移[8][12] - OWL训练方法通过两阶段优化(SFT+DPO)显著提升规划器性能,使Qwen2.5-32B模型准确率从36.36%提升至52.73%[19][21] 技术架构 - 解耦设计:分为领域无关规划器(Planner Agent)、智能协调器(Coordinator Agent)和可替换工作节点(Worker Nodes)[11] - 模块化优势:仅需更换工作节点即可适应新领域,核心规划机制保持不变,迁移成本降低70%以上[12] - 通信机制:协调器通过共享"任务通道"管理任务依赖与中间结果整合[11] 训练方法 - 两阶段训练: 1 监督微调(SFT)使用1599个高质量轨迹数据集初始化规划器[19] 2 强化学习优化(DPO)提升决策质量,使规划器超越简单模仿[19] - 性能提升:OWL训练使Qwen2.5-32B模型超越未训练的72B模型(49.09% vs 52.73%)[21] 性能表现 - GAIA基准:Workforce框架在validation集pass@1达69.70%,超越OpenAI Deep Research(67.36%)和所有开源系统[18] - 多维度优势:Level 1任务准确率84.91%(Claude-3.7-Sonnet),Level 3达42.31%[20] - 自我纠错:任务失败时触发动态调整机制,重新规划后性能持续提升[25] 应用挑战 - 现实问题:需处理信息源差异(如不同答案)、时效性(动态变化)、语言歧义性(模糊查询)及网络限制[23][26] - 稳定性:在多能力任务中保持性能稳定,单智能体方法性能下降超30%[25] 行业影响 - 开源生态:代码已获GitHub 17k star,加速行业应用落地[2][4] - 通用AI路径:模块化设计为通用AI助手提供可扩展基础,降低部署门槛70%[25][27]
突破多智能体系统边界,开源方案OWL超越OpenAI Deep Research,获17k star
机器之心·2025-06-17 11:22