6小时复刻AI IMO金牌成果,蚂蚁多智能体新进展已开源
量子位·2025-08-02 16:33
核心观点 - 多智能体协同系统在IMO 2025竞赛中展现出超越单模型的解题能力,通过「解题者+验证者」双角色对话机制实现复杂数学问题的求解[6][10][19] - AWorld框架在6小时内复现DeepMind的5/6道IMO解题结果,并开源可运行的多智能体系统[2][15] - 多智能体协同通过动态构建高质量输入信息、实施元认知功能和降低信息熵,解锁基础模型的深层潜力[8][11][14] 技术突破 - 多智能体系统首次工程验证:群体智力上限超越依赖的单个模型(Gemini 2.5 Pro等)[6][10] - 实现"元认知"功能:通过角色扮演执行自我监控、评估和修正,避免单模型思维定式[12][13] - 事件驱动架构超越LangChain框架,支持智能体间异步通信与复杂实时交互[16][17] 系统架构 - 双智能体机制:做题家生成数学证明,验证者进行严格验证,通过多轮迭代优化解答[19] - 模型即插即用设计:30秒内可切换OpenAI/Gemini/Claude等主流大模型[20] - 全链路可观测性:提供决策追踪、工具调用监控和完整日志记录[18] 性能表现 - 在GAIA Test榜单达到77.08分,开源工作中排名第一[15] - 单模型连续10次推理失败的第3题,多智能体系统在第5轮迭代即完成解答[10] - 当前系统数学能力超越99%人类选手(测试集有限)[23] 行业影响 - 证明AI智能上限取决于组织方式而非单纯模型规模,开辟群体智能新路径[24] - 开放训练接口形成"数据-训练-部署"闭环,支持智能体持续自我进化[26] - 下一步将探索「多智能体+形式化验证」组合,目标直指Lean4形式化证明[25]