Workflow
大语言模型(LLM)智能体
icon
搜索文档
给你一群顶尖AI,如何组队才能发挥最大战力?UIUC用一个新的多智能体协作基准寻找答案
机器之心· 2025-07-09 12:23
核心观点 - AI研究正从个体智能转向多智能体协作与竞争研究,MultiAgentBench填补了多智能体系统评估的空白 [2][3][4] - 该基准首次系统化评估LLM多智能体的协作效率、沟通质量和竞争策略,揭示团队动态中的关键规律 [6][8][9] - 实验发现个体能力是协作基础,去中心化结构效率最高,且AI展现出"社会智慧"的涌现行为 [25][32][44] 框架设计 - **协作引擎**:区分规划者与执行者角色,实现任务分解与动态调度 [13] - **智能体图**:用三元组(agent1,关系,agent2)构建结构化关系网络,模拟真实团队架构 [14] - **认知模块**:提供个性化记忆与推理方式,支持策略动态调整 [15] 评测场景 - 覆盖6类场景:科研(合作写报告)、Minecraft(游戏协作)、数据库开发、编程、狼人杀(欺骗博弈)、商业谈判(资源竞争) [22] - 包含共同目标与冲突目标两类任务,模拟从合作到对抗的连续谱系 [20][21] 评估指标 - **任务得分(TS)**:按场景定制化评价最终产出质量,如编程任务代码完成度 [27] - **协作总分(CS)**:综合沟通分数(信息传递效率)与规划分数(战略连贯性) [28] - **里程碑KPI**:动态检测关键节点达成情况,识别核心贡献智能体 [27] 关键结论 - **个体能力优先**:Meta-Llama-3-70B在Minecraft任务中CS达75但TS仅0.21,显示执行能力缺陷无法通过协作弥补 [31][32] - **组织结构效率**:图结构去中心化协作效率最高,树型层级结构因沟通损耗表现最差 [38] - **规模效应**:智能体数量超过3个时出现"林格曼效应",KPI随规模扩大下降 [40][41] - **社会行为涌现**:狼人杀中AI自发形成战略性沉默、信任分化等高级博弈策略 [44][47] 技术亮点 - **认知自演化规划**:通过复盘动态调整策略,优于小组讨论等传统方法 [38] - **动态关系网络**:支持协作/监督等多元关系,比固定指令更接近真实团队 [14] - **多模态评估**:同时量化任务结果(硬指标)与协作过程(软实力) [27][28]