Workflow
DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分,上海交大等开源方案碾压OpenAI、谷歌
量子位·2025-07-09 12:57

核心观点 - 上海交大联合深势科技团队在"人类最后的考试"(HLE)上取得32.1分,创下新纪录[2] - 该团队推出工具增强推理智能体X-Master和多智能体工作流系统X-Masters[3] - 研究成果已开源[4] - 使用DeepSeek-R1-0528作为驱动智能体的推理模型[6] - 这是首个在HLE上得分超过30%的系统[26] 技术方案 - X-Master是一个由开源模型驱动的工具增强型推理智能体,模拟人类研究者的动态问题解决过程[9] - 将代码概念化为一种交互语言,在遇到无法解决的问题时编写代码块执行[11] - 引入初始推理引导机制,通过精心设计的自我陈述引导模型[17] - X-Masters采用分散-堆叠式智能体工作流,通过多智能体协作增强推理[20] - 分散阶段:多个求解器智能体并行工作,批评者智能体修正方案[22] - 堆叠阶段:重写器智能体综合方案,选择器智能体裁定最佳答案[22] 性能表现 - 在HLE测试中取得32.1%的最高分[26] - 消融研究显示:工具增强推理提高3.4%,迭代优化增加9.5%,最终选择实现32.1%[29] - 在生物学/医学类别中表现优于现有系统,达到27.6%正确率[31] - 在TRQA-lit生物学测试中取得67.4%的SOTA成绩[32] HLE测试背景 - 由AI安全中心和Scale AI发起,被称为史上最难大模型测试集[34] - 题目来自500多家机构的1000多名学者,需通过大模型和人工双重审查[38] - 最终入围3000多道题目,涵盖数理化、生物医药等八大类[39] - 数学占比42%,物理和生物医药各占11%[39]