6小时复刻AI IMO金牌成果，蚂蚁多智能体新进展已开源

核心观点 - 多智能体协同系统在IMO 2025竞赛中展现出超越单模型的解题能力，通过「解题者+验证者」双角色对话机制实现复杂数学问题的求解[6][10][19] - AWorld框架在6小时内复现DeepMind的5/6道IMO解题结果，并开源可运行的多智能体系统[2][15] - 多智能体协同通过动态构建高质量输入信息、实施元认知功能和降低信息熵，解锁基础模型的深层潜力[8][11][14] 技术突破 - 多智能体系统首次工程验证：群体智力上限超越依赖的单个模型（Gemini 2.5 Pro等）[6][10] - 实现"元认知"功能：通过角色扮演执行自我监控、评估和修正，避免单模型思维定式[12][13] - 事件驱动架构超越LangChain框架，支持智能体间异步通信与复杂实时交互[16][17] 系统架构 - 双智能体机制：做题家生成数学证明，验证者进行严格验证，通过多轮迭代优化解答[19] - 模型即插即用设计：30秒内可切换OpenAI/Gemini/Claude等主流大模型[20] - 全链路可观测性：提供决策追踪、工具调用监控和完整日志记录[18] 性能表现 - 在GAIA Test榜单达到77.08分，开源工作中排名第一[15] - 单模型连续10次推理失败的第3题，多智能体系统在第5轮迭代即完成解答[10] - 当前系统数学能力超越99%人类选手（测试集有限）[23] 行业影响 - 证明AI智能上限取决于组织方式而非单纯模型规模，开辟群体智能新路径[24] - 开放训练接口形成"数据-训练-部署"闭环，支持智能体持续自我进化[26] - 下一步将探索「多智能体+形式化验证」组合，目标直指Lean4形式化证明[25]