Workflow
SGI-Bench
icon
搜索文档
别再吹AI搞科研了!新评测泼冷水:顶尖模型离「合格科学家」还差得远
量子位· 2025-12-27 15:08
文章核心观点 - 上海人工智能实验室提出了衡量AI“科学通用能力”的新框架与基准SGI-Bench,其核心观点是当前最先进的大语言模型在科学研究的全流程任务中表现仍显著不足,距离成为“强科学家”尚有巨大差距 [1][3][9] SGI能力框架与评测基准 - 提出了“科学通用能力”的四阶段循环模型,将科学探究拆解为审思、构思、行动、感知四个维度,并将其综合定义为SGI [1][3] - 发布了覆盖全流程的SGI-Bench基准,该基准采用“科学家对齐”的任务构造方法,由多学科专家提供原始语料,并由超过100位研究生/博士生结合真实科研流程构建题目 [5] - 基准样本经过三重清洗和难度筛选,最终得到1000多个覆盖化学、生命、物理、数学等10大学科的评测样本 [6] 核心评测结果与发现 - 在审思/深度研究维度,模型在单个步骤的准确率可达50%–65%,但由于长链条步骤中的错误累积,最终结论的严格匹配准确率仅10%–20% [9][13] - 在构思/创意生成维度,模型生成想法的新颖性尚可,但可行性普遍偏低,例如GPT-5的新颖性得分为76.08,而可行性得分仅为18.87 [19][26] - 在行动/实验执行的干实验部分,模型生成的代码可运行率(平滑执行率)多在90%以上,但科学正确性不足,最佳模型Gemini-3-Pro的代码严格通过率(通过全部5个单测)仅36.64% [24][30][31] - 在行动/实验执行的湿实验部分,模型在规划实验流程时表现不佳,最佳模型的序列相似度约35.5,参数准确率最高约40.6 [32][35] - 在感知/结果解读维度,最佳闭源模型的答案准确率约41.9,推理有效性最高约71.3,比较型推理是其中最薄弱的环节 [37][43] 模型表现对比 - 闭源模型整体表现优于开源模型,其中Gemini-3-Pro以SGI-Score 33.83/100取得当前最佳成绩 [3] - 工具增强的多智能体方案在逐步准确率上略优于纯模型,但优势并不显著 [16] - 在代码生成任务上,闭源模型略优于开源模型,但优势有限且分布重叠,表明“科学代码合成”是各架构的共同短板 [30] 智能评测工具 - 团队开发了名为SGIEvalAgent的智能体评测框架,允许用户通过自然语言描述评测意图,系统可自动解析意图、选择题目、定制指标、执行评测并生成带有证据链的评测报告 [44][46][47][48] 未来发展方向 - 研究为AI自主科研指明了多个改进方向,包括通过细粒度视觉定位提升多模态比较推理精度、强化证据聚合与数值鲁棒性以提升深度研究准确性、引入规划感知提升创意可行性、在代码生成训练中聚焦数值分析先验与算法稳定性,以及结合状态模拟解决湿实验协议中的时序逻辑问题 [51][52]
别再吹AI搞科研了!新评测泼冷水:顶尖模型离「合格科学家」还差得远
量子位· 2025-12-27 12:59
文章核心观点 - 上海人工智能实验室提出了评估AI“科学通用能力”的新框架SGI-Bench,其核心观点是当前最先进的大模型在科学研究的全流程中表现仍显著不足,距离成为“强科学家”尚有巨大差距[1][3][9] SGI-Bench评测框架 - 团队定义了科学通用能力的四个循环阶段:审思/深度研究、构思/创意生成、行动/实验执行、感知/结果解读,并将四维能力的综合定义为SGI[3] - 评测基准SGI-Bench采用“科学家对齐”的任务构造方法,由多学科专家提供原始语料,超过100位研究生/博士生结合真实科研流程构建题目,最终得到覆盖10大学科的1000多个评测样本[5][6] 核心评测结果与洞见 审思/深度研究 - 模型在科学深度研究任务中的步骤准确率可达50%–65%,但由于长链条步骤中的错误累积,最终答案的严格匹配率仅10%–20%[13] - “数据/性质”类题目最难,需要跨文献精确检索与数值聚合;“微/宏实验”类相对较好但整体准确率仍低于30%[18] - 工具增强的多智能体在逐步准确率上略优,但与纯模型差距并不显著[16] 构思/创意生成 - 模型在创意生成任务中表现出“概念丰富≠可执行方案”的特点,以GPT-5为例,其新颖性得分为76.08,但可行性得分仅为18.87[26] - 开源模型的可行性得分上限约20分,多数模型在14–20分之间,常见缺陷包括缺少数据获取计划、流程接口不闭合、步骤顺序模糊等[26] 行动/实验执行 干实验 - 在科学代码合成任务中,最佳模型Gemini-3-Pro的严格通过率仅36.64%,宽松通过率41.98%,表明模型常能写对部分代码,但难以实现严格正确[30] - 代码的平滑执行率多在90%以上,但“能跑”与“算对”之间存在系统性鸿沟,数值计算与仿真类任务最弱[31] 湿实验 - 在湿实验流程规划任务中,模型生成的原子动作序列与标准答案的相似度整体偏低,最佳闭源模型约35.5;参数准确率最高约40.6[35] - 高发错误包括插入多余步骤、遗漏关键步骤、打乱有效步骤顺序,反映了模型在时间协调、分支规划与样本管理方面的薄弱[35] 感知/结果解读 - 在多模态实验推理任务中,最佳闭源模型的答案准确率约41.9,推理有效性最高约71.3[43] - 多数模型的推理有效性高于答案准确率,表明难以实现推理链条的完全正确;比较型推理任务最弱[43] 智能评测工具SGIEvalAgent - 团队设计了面向“可定制评测与报告生成”的智能体SGIEvalAgent,用户可用自然语言描述评测意图,系统将自动解析意图、选择题目、定制指标、执行推理与打分,并输出带有可追溯证据链的评测报告[44][46][48] 未来发展方向 - 根据SGI-Bench的结果,为AI自主科研指明了多个改进方向,包括:通过细粒度视觉定位提升多模态比较推理精度;强化证据聚合与数值鲁棒性以提升深度研究准确性;引入规划感知与结构化监督以保障创意可行性;在代码生成训练中聚焦数值分析先验与算法稳定性;结合状态模拟解决湿实验的时序逻辑与复杂分支问题[51][52]