Workflow
HLE“人类最后考试”首次突破60分,Eigen-1基于DeepSeek V3.1显著领先Grok4、GPT-5
Seek .Seek .(US:SKLTY) 36氪·2025-09-28 20:05

核心技术突破 - Eigen-1多智能体系统在HLE Bio/Chem Gold测试集上取得历史性突破,Pass@1准确率达到48.3%,Pass@5准确率飙升至61.74%,首次跨越60%大关 [1] - 该成绩显著超越谷歌Gemini 2.5 Pro(26.9%)、OpenAI GPT-5(22.82%)和Grok 4(30.2%)[1] - 系统基于开源模型DeepSeek V3.1搭建,通过三大创新机制实现质的飞跃 [2][6] 技术创新机制 - Monitor-based RAG机制实现隐式知识增强,将token消耗减少53.5%,工作流迭代次数减少43.7% [10][25] - 分层解决方案精炼(HSR)采用"锚点—修复"结构,打破传统多智能体系统的"民主投票"机制 [12] - 质量感知迭代推理(QAIR)根据解答质量自适应调整迭代深度,在效率与准确率之间取得平衡 [15] 多基准测试表现 - 在SuperGPQA生物学(Hard版)测试中,Pass@1达到69.57%,Pass@5达到78.26% [17] - 在TRQA文献理解测试中,Pass@1达到54.65%,Pass@5达到79.07% [17] - 相比其他智能体系统,Eigen-1在多个基准测试中均展现全面优势 [17] 技术架构优势 - 错误模式分析显示92.78%的错误涉及推理过程问题,88.66%涉及知识应用问题,凸显知识推理整合的核心挑战 [18] - 完整系统准确率达到48.3%,同时保持高效资源利用(218.9K tokens,53.4步骤) [20][22] - 消融实验证明各组件必要性,移除Monitor导致token消耗激增至461.3K,移除HSR或QAIR分别导致准确率降至44.8%和43.7% [20][21] 系统设计洞察 - 研究发现检索型任务应鼓励解法多样性(斜率0.369),而推理型任务应倾向早期共识(斜率0.851) [23] - Eigen-1在提升准确率的同时减少53.5%的token消耗,工作流迭代次数从94.8步降至53.4步 [25] - 该系统突破预示着AI辅助科学研究的新范式,将加速从基础研究到应用转化的全过程 [27]