DeepSeek-R1超级外挂！“人类最后的考试”首次突破30分，上海交大等开源方案碾压OpenAI、谷歌

核心观点 - 上海交大联合深势科技团队在"人类最后的考试"(HLE)上取得32.1分，创下新纪录[2] - 该团队推出工具增强推理智能体X-Master和多智能体工作流系统X-Masters[3] - 研究成果已开源[4] - 使用DeepSeek-R1-0528作为驱动智能体的推理模型[6] - 这是首个在HLE上得分超过30%的系统[26] 技术方案 - X-Master是一个由开源模型驱动的工具增强型推理智能体，模拟人类研究者的动态问题解决过程[9] - 将代码概念化为一种交互语言，在遇到无法解决的问题时编写代码块执行[11] - 引入初始推理引导机制，通过精心设计的自我陈述引导模型[17] - X-Masters采用分散-堆叠式智能体工作流，通过多智能体协作增强推理[20] - 分散阶段：多个求解器智能体并行工作，批评者智能体修正方案[22] - 堆叠阶段：重写器智能体综合方案，选择器智能体裁定最佳答案[22] 性能表现 - 在HLE测试中取得32.1%的最高分[26] - 消融研究显示：工具增强推理提高3.4%，迭代优化增加9.5%，最终选择实现32.1%[29] - 在生物学/医学类别中表现优于现有系统，达到27.6%正确率[31] - 在TRQA-lit生物学测试中取得67.4%的SOTA成绩[32] HLE测试背景 - 由AI安全中心和Scale AI发起，被称为史上最难大模型测试集[34] - 题目来自500多家机构的1000多名学者，需通过大模型和人工双重审查[38] - 最终入围3000多道题目，涵盖数理化、生物医药等八大类[39] - 数学占比42%，物理和生物医药各占11%[39]