Workflow
高阶推理
icon
搜索文档
真实科研水平集体不及格!全新基准SFE给主流多模态LLM来了波暴击
机器之心· 2025-07-09 17:52
核心观点 - 当前AI4S在单点取得进展,但需采用"通专融合AGI"方式成为革命性工具,大模型的突破性能力正改变科研模式,但需科学评测支撑[1] - 现有科学评测存在两大痛点:聚焦知识记忆而非全链条能力;多模态数据分析需求未充分开发[2] - 上海AI实验室推出SFE评测基准,首创"信号感知-属性理解-对比推理"三级体系,涵盖5大领域66项高价值任务,揭示主流模型在高阶科学任务上表现不佳(SOTA仅30分左右)[3][4] 评测体系设计 - SFE构建三层认知框架:科学信号感知(L1)、科学属性理解(L2)、科学比较推理(L3),覆盖从数据感知到高阶推理的全链条能力[7][10] - 数据集包含830个VQA、66项科学任务,涉及202个L1、503个L2、125个L3任务,平均问题长度88(英)/86(中)token,答案长度100(英)/106(中)token[14] - 开发流程分三步:与专家确定高价值方向→细化任务设计→精选原始数据构建VQA样本,涉及18个科学方向和17种数据格式[15][17] 模型表现分析 - 闭源模型整体优于开源模型6-8%,GPT-o3与Gemini-2.5-Pro差距达26%,因后者存在冗余思考导致token消耗过快[20] - 材料科学表现最佳(GPT-o3达63.44%),因任务结构化明显;天文学最弱(平均约20%),因数据噪声大且直观性弱[22][23] - 高阶推理(L3)能力进步显著(如GPT-o3从26.64%提升至36.48%),但知识理解(L2)进步有限,显示模型提升主要来自推理架构创新[25][26] 技术趋势洞察 - 闭源模型在Pass@k测试中扩展性更好(37.75% vs 27.33%),可能因训练数据更丰富且平衡探索与利用[29][30] - 模型规模与科学能力非正比关系,如Qwen2.5-VL-72B表现反低于7B版本,显示需同步扩充科学数据以避免过拟合[31][32] - 推出"棱镜"科学评测平台,包含模型能力/学科多样性等5大模块,覆盖AI for Innovation/Computation/Data三层评估维度[33][35][36]