论文发布与行业反响 - 一篇由中国AI初创公司深度原理Deep Principle领衔全球24所顶级科研机构发布的论文《Evaluating LLMs in Scientific Discovery》引发广泛关注,一夜之间阅读量逼近200万 [1][6] - 论文同步于OpenAI发布相关领域评测报告,引发了包括Keras创始人、NBA球队老板、硅谷投资人在内的全球AI舆论场讨论 [1][3][6][8] - 论文旨在回应AI估值泡沫与能力质疑并存的行业背景,探讨大语言模型在科学发现领域的实际能力与差距 [8] 论文核心内容与发现 - 论文推出了首个用于评测大语言模型科学发现能力的体系SDE,该体系从“假设->实验->分析”的实验场景出发,超越了传统的问答式评测 [9] - 研究对GPT-5、Claude-4.5、DeepSeek-R1、Grok-4等主流模型在生物、化学、材料、物理领域进行评估,发现其平均准确率为50–70%,远低于它们在GPQA、MMMU等题库上80–90%的表现 [11] - 在86道“SDE-Hard”难题中,模型最高得分不足12%,暴露出在多步推理、不确定性量化和实验-理论闭环方面的短板 [11] - 研究发现模型规模与推理能力提升呈现“边际效益递减”,GPT-5相比前代在SDE四大科学领域平均准确率仅提升3%-5%,部分场景如NMR结构解析甚至出现性能下滑 [11] - 结论指出当前大语言模型在推动科学发现方面的表现不如普通本科生,且现有发展路径不能“顺便攻克”科学发现 [11][17] 公司深度原理Deep Principle背景 - 论文通讯作者及深度原理Deep Principle创始人兼CTO段辰儒,曾在MIT攻读化学博士,并在图灵奖得主Yoshua Bengio支持下发起AI for Science社区 [12] - 公司由段辰儒与MIT物理化学博士贾皓钧于2024年初回国共同创立,两人均为95后,已在全球AI for Science创业领域小有名气 [12] - 创业一年半以来,公司已获得线性资本、高瓴创投、蚂蚁集团等多家知名机构投资,并与晶泰科技、深势科技等业内知名企业建立战略合作关系 [12] - 公司将生成式人工智能与量子化学结合,致力于材料发现等领域,已在Nature子刊和JACS等顶级期刊发表多项重磅成果 [13] - 公司通过商业化合作积累了来自工业研发第一线的真实场景数据和模型应用经验,为其构建SDE评测体系奠定了基础 [14] 行业影响与意义 - 该研究汇聚了全球23家顶级科学发现机构的50余位科学家,形成了制定SDE标准的“梦之队”,其中包括MMMU发起人、IBM RXN之父等多位领域内知名学者 [14][15] - 此次由中国团队领衔的工作,与OpenAI的报告共同标志着行业对AI for Science这一通往AGI关键路径的严肃讨论进入新阶段 [17] - 研究将行业焦点从大语言模型在各类问答式榜单上的竞争,推向了对真正科学发现能力的关注 [17]
一夜200万阅读,OpenAI神同步,这项测评框架让全球顶尖LLM全翻车
36氪·2026-01-15 09:26