北大学生与AI同场竞技 胜负花落谁家?
央广网·2026-01-05 17:23

项目背景与目标 - 北京大学化学与分子工程学院联合多个校内团队发布了名为SUPERChem的评估项目,旨在为人工智能在化学领域的能力建立高标准的评估“标尺” [1] - 项目通过让174位北大化学学院大二学生与GPT、Gemini、DeepSeek等世界顶尖AI模型同场竞技,以测试AI在需要深度推理的自然科学领域的表现 [1] - 项目主创人员表示,此举并非为了证明AI的短板,而是为了推动AI在自然科学领域的发展,并引导计算机研究者如何训练模型以辅助科学突破 [8] 评估体系与题库设计 - SUPERChem题库包含500道题目,涵盖“晶体结构的精细解析”、“反应机理的深度推演”、“物化性质的定量计算”等高难度内容 [1] - 出题团队由北京大学近百名师生组成,其中包括化学奥赛金牌得主,目的是确保题目新颖,让AI“没见过” [1] - 题目设计采用选择题形式,以避免AI通过背诵和数据泄露来获得答案 [2] - 题库审核流程极为严格,每道题需经历初稿、撰写解析、初审与终审环节,由不同人员把关,通过终审的题目最多迭代过15个版本 [4] 测试结果与表现分析 - 参与测试的174位北大化院本科生取得了40.3%的平均准确率,这本身就说明了题目的高难度 [7] - 接受测试的AI模型表现仅与低年级本科生的平均水平相当,最高正确率低于人类基准 [7] - 具体模型表现:GPT-5 (High) 文本模态正确率为39.6%,多模态为38.5%;Gemini-2.5-Pro (High) 多模态正确率为37.9%;DeepSeek-V3.1-128k (Think) 文本模态正确率为37.3% [7] - 项目主创人员解释,当前主流大模型多为文本基础,多模态能力(如图像理解)不强,而化学涉及大量二维或三维立体信息,这是AI在此类题目中表现不佳的主要原因 [7] 项目意义与行业影响 - 该项目被视作一次主动的“压力测试”,旨在检验人工智能在科学深水区的航行能力,并促使人类重新思考在AI擅长处理“已有知识”的时代,自身的核心竞争力是什么 [8] - 项目推动了教育方式的反思与创新,在北大校园内,越来越多的老师开始改变出题思路,设计AI难以解答的题目,这要求教育者自身进行更深入的学习和更严谨的推理 [9] - 项目团队认为,在人工智能时代,最珍贵的可能不再是“知道什么”,而是“还能想知道什么”,人类最不可替代的价值在于永远能提出新的问题,教育的目标应是保护好这种提问的能力 [9]