科学推理
搜索文档
HLE“人类最后考试”首次突破60分,Eigen-1基于DeepSeek V3.1显著领先Grok4、GPT-5
36氪· 2025-09-28 20:05
核心技术突破 - Eigen-1多智能体系统在HLE Bio/Chem Gold测试集上取得历史性突破,Pass@1准确率达到48.3%,Pass@5准确率飙升至61.74%,首次跨越60%大关 [1] - 该成绩显著超越谷歌Gemini 2.5 Pro(26.9%)、OpenAI GPT-5(22.82%)和Grok 4(30.2%)[1] - 系统基于开源模型DeepSeek V3.1搭建,通过三大创新机制实现质的飞跃 [2][6] 技术创新机制 - Monitor-based RAG机制实现隐式知识增强,将token消耗减少53.5%,工作流迭代次数减少43.7% [10][25] - 分层解决方案精炼(HSR)采用"锚点—修复"结构,打破传统多智能体系统的"民主投票"机制 [12] - 质量感知迭代推理(QAIR)根据解答质量自适应调整迭代深度,在效率与准确率之间取得平衡 [15] 多基准测试表现 - 在SuperGPQA生物学(Hard版)测试中,Pass@1达到69.57%,Pass@5达到78.26% [17] - 在TRQA文献理解测试中,Pass@1达到54.65%,Pass@5达到79.07% [17] - 相比其他智能体系统,Eigen-1在多个基准测试中均展现全面优势 [17] 技术架构优势 - 错误模式分析显示92.78%的错误涉及推理过程问题,88.66%涉及知识应用问题,凸显知识推理整合的核心挑战 [18] - 完整系统准确率达到48.3%,同时保持高效资源利用(218.9K tokens,53.4步骤) [20][22] - 消融实验证明各组件必要性,移除Monitor导致token消耗激增至461.3K,移除HSR或QAIR分别导致准确率降至44.8%和43.7% [20][21] 系统设计洞察 - 研究发现检索型任务应鼓励解法多样性(斜率0.369),而推理型任务应倾向早期共识(斜率0.851) [23] - Eigen-1在提升准确率的同时减少53.5%的token消耗,工作流迭代次数从94.8步降至53.4步 [25] - 该系统突破预示着AI辅助科学研究的新范式,将加速从基础研究到应用转化的全过程 [27]
HLE“人类最后考试”首次突破60分!Eigen-1基于DeepSeek V3.1显著领先Grok4、GPT-5
量子位· 2025-09-28 19:54
技术突破与性能表现 - Eigen-1多智能体系统在HLE Bio/Chem Gold测试集上实现历史性突破,Pass@1准确率达48.3%,Pass@5准确率飙升至61.74%,首次跨越60分大关[1] - 该系统性能远超竞争对手,显著高于谷歌Gemini 2.5 Pro(26.9%)、OpenAI GPT-5(22.82%)和Grok 4(30.2%)[1] - 在SuperGPQA生物学(Hard版)测试中,Pass@1达69.57%,Pass@5达78.26%;在TRQA文献理解测试中,Pass@1为54.65%,Pass@5高达79.07%[22][27] 技术架构创新 - 系统完全基于开源模型DeepSeek V3.1搭建,通过三大创新机制实现质的飞跃[3] - Monitor-based RAG机制将token消耗减少53.5%,工作流迭代次数减少43.7%,同时保持更高准确率,解决了传统RAG系统的"工具税"问题[11][37] - 分层解决方案精炼(HSR)采用"锚点—修复"结构,通过逻辑补全、数值修正、方法替换、表达优化四种维度提升解决方案质量[16] - 质量感知迭代推理(QAIR)根据解答质量自适应调整迭代深度,高质量解答可提前收敛,低质量解答触发更多探索[20] 基准测试重要性 - HLE(人类最后考试)涵盖数学、自然科学、工程学、人文社科等百余领域共3000道博士级难题,被视为AI知识推理的终极试炼[5] - HLE Bio/Chem Gold是HLE的黄金标准子集,包含149道经过领域专家人工审核和纠正的题目,排除了可能存在歧义或错误答案的问题[6] - 传统基准如MMLU、GPQA等已逐渐失去区分力,因大模型纷纷"卷到90分"[5] 错误分析与技术洞察 - 错误模式分析显示92.78%的错误涉及推理过程问题,88.66%涉及知识应用问题,且两者存在大量重叠[24] - 科学推理的核心挑战在于如何将知识与推理无缝整合,而非单纯的知识检索或逻辑推理[25] - 在信息检索任务中,解决方案多样性与准确率呈较弱正相关(斜率0.369);而在推理任务中,一致性与准确率呈强正相关(斜率0.851)[33] 组件贡献量化 - 增量构建实验显示,基线系统无外部知识时准确率仅25.3%,加入显式RAG后提升至41.4%,但工作流步骤从43.4激增至94.8[29] - 完整系统(包含所有组件)准确率达48.3%,token消耗218.9K,步骤53.4,实现了准确率提升与资源消耗降低的双重优化[30][32] - 消融实验证明各组件必要性:移除Monitor导致token消耗激增至461.3K,步骤增至95.3;移除HSR或QAIR分别导致准确率降至44.8%和43.7%[30][31] 行业意义与发展前景 - 该突破预示着AI辅助科学研究的新范式,当AI能真正理解人类知识前沿的复杂问题时,将成为科学家的强大助手[39][40] - 基于开源模型的成功展示了开源生态在推动AI前沿发展中的重要作用[3][42] - 未来优化方向包括架构设计改进、向其他科学领域扩展以及技术整合到更广泛的科学工作流中[42]
AI攻克物理奥赛,王梦迪团队打造Physics Supernova智能体,超过人类金牌选手平均分
36氪· 2025-09-16 16:20
AI系统性能表现 - Physics Supernova在2025年国际物理奥林匹克竞赛理论题测试中获得23.5分(满分30分),在406名参赛者中排名第14 [1] - 该系统在三道题目中均进入人类前10%,超过人类金牌选手平均得分 [1] - 成绩显示AI在复杂科学问题上的推理能力已逼近人类顶尖水平 [3] 技术架构与工具集成 - 系统基于smolagents框架并采用CodeAgent架构,具备动态调用工具的自我规划能力 [4] - 集成专用工具ImageAnalyzer处理图像数据,通过视觉语言模型执行精确数值读取与测量 [6] - 配备AnswerReviewer工具用于识别错误类型并提升自我校正能力,移除该工具会导致非简单题性能显著下降 [6] - 接入WolframAlpha计算型知识引擎以增强专业领域知识应对能力 [9] 系统开发背景 - 由普林斯顿大学王梦迪教授团队主导开发,第一作者包括普林斯顿博士Jiahao Qiu和清华姚班本科生史景喆(2021年物理奥赛金牌得主) [1] - 突破传统题库依赖模式,通过多工具模块结合LLM实现从题目理解到建模计算的完整流程 [3] 应用前景与研究方向 - 未来需拓展程序实验或仪器实验能力,机器人技术发展可能使AI Agent具备执行物理实验题的能力 [10] - 需建立可验证的物理计算体系,开发能验证公式、物理表达与直观推理抽象转换的方法 [11] - 长期目标为发展能嵌入现实世界执行复杂物理任务的高级智能体 [12] 行业意义 - 该突破重新定义了AI在科学推理领域的应用边界,为科学探索开辟新可能性 [3] - 合理集成工具的Agent架构被证实能显著提升AI在复杂科学问题上的表现 [3]
史上最大高质量科学推理后训练数据集开源,快速让Qwen3等变“科学家”
量子位· 2025-08-09 15:01
数据集发布与核心价值 - 上海创智学院与上海交通大学GAIR Lab联合发布MegaScience数据集,包含125万条跨学科问答对,覆盖生物学、化学、计算机科学等7大领域,旨在提升通用AI系统的科学推理能力[1] - 数据集采用大学教材作为核心数据源,通过12万本教材构建65万条问答对(TextbookReasoning子集),确保答案权威性,最终混合形成125万条数据的MegaScience全集[14][15] - 发布一周内下载量突破4.6k次,登上HuggingFace Datasets Trending榜单第四位,显示学术界与工业界的强烈需求[7] 技术创新与解决方案 - 开发四阶段系统性方案:构建15个Benchmark的评估体系、大模型驱动的数据去污染、教科书级数据源采集、聊天模型优化的数据精炼流程[13] - 采用全自动化LLM流水线处理教材数据,包含OCR转换、双重问答抽取(高标准/低标准)、LSH去重、DeepSeek-V3精炼、Llama3.3污染检测等5大步骤[17][19][20][23][24][25] - 创新数据筛选策略:基于回答长度(保留最长回答)、问题难度(Qwen2.5模型评分1-10分过滤简单题)、随机采样三重方法优化数据集质量[30][31][32] 性能表现与模型验证 - 在Qwen2.5-7B模型上,MegaScience微调版相比官方Instruct模型提升2.21%平均性能,在SciBench等计算类任务中优势达5.78个百分点[42] - 模型规模扩展性显著:Qwen3-14B经MegaScience训练后性能超越官方Instruct模型2.82%,30B版本差距扩大至3.24%,显示大模型获益更明显[44][45] - 数学推理呈现能力门槛效应,仅Qwen2.5-7B及以上规模模型能有效吸收数据集中的高难度数学内容(大学本科级概念)[46] 开源生态与评估体系 - 完整开源体系包含:数据集本体(CC-BY-NC-SA 4.0协议)、数据构建代码、评估系统(Language Model Open Science Evaluation框架)、预训练模型[5][37][48] - 评估框架覆盖15个Benchmark,创新两阶段答案抽取技术解决传统\boxed{}格式局限,支持选择题/计算题/判断题/简答题全题型[38][39] - 提供跨模型验证结果:在Llama3.1-8B、Qwen全系列(1.5B-30B)上均观察到性能提升,最高达73.86平均分(Qwen3-30B)[43][44]