一场特殊的“期中考”：174名北大学生能否考过AI？

北京大学SUPERChem项目概述 - 北京大学化学与分子工程学院联合计算中心、计算机学院、元培学院团队发布了最新成果SUPERChem 旨在通过一套高难度“北大试卷”冷静丈量AI在科学推理上的真实边界 [1] 评测背景与目的 - 这是一场精心设计的“图灵测试” 让包括GPT、Gemini、DeepSeek在内的AI与174位北大化学与分子工程学院大二学生同场竞技 [1] - 评测核心目的是检验大语言模型是否真的“懂”化学探究其一维的next token预测能力能否解决二维甚至三维空间中的复杂推理问题 [4] 评测题库设计 - 题库包含500道题目源于对高难度试题和前沿专业文献的深度改编旨在避免AI通过“背书”答题 [3][4] - 设计高门槛、重推理、防作弊的试卷是北大化院的独特优势近百名师生（包括奥林匹克金牌得主）参与出题 [4] - 团队通过专属协作平台和积分激励系统进行学术共创题目需历经多轮审核终审通过的题目最多迭代过15个版本 [6] 评测结果：人类基准与AI表现 - 作为基线参与测试的北大化院本科生取得了40.3%的平均准确率这本身就说明了题目的硬核程度 [8] - 接受测试的顶尖AI模型成绩仅与低年级本科生的平均水平相当 [9] - 具体模型表现：GPT-5 (High) 文本模态正确率为39.6% 多模态为38.5% Gemini-2.5-Pro (High) 多模态为37.9% DeepSeek-V3.1-128k (Think) 文本模态为37.3% [10] AI在化学推理中的关键短板 - 视觉信息带来困惑对于部分模型当引入图像信息时其准确率不升反降表明AI在将视觉信息转化为化学语义时存在明显的感知瓶颈 [11] - AI的推理链条往往断裂于产物结构预测、反应机理识别以及构效关系分析等高阶任务在处理需要严密逻辑和深刻理解的硬核化学问题时仍显得力不从心 [15] - 即使选对答案解题步骤也可能经不起推敲 SUPERChem通过详细的评分规则来鉴别AI是真懂还是装懂 [13] 项目意义与开源 - SUPERChem的诞生填补了化学领域多模态深度推理评测的空白 [16] - 该项目旨在推动AI发展标志着从通用的聊天机器人到能够理解构效关系、推演反应机理的专业科学助手之间仍有很长的路要走 [16] - 目前SUPERChem项目已全面开源团队希望这套源自北大的“试卷”能成为全球科学与人工智能领域的公共财富催化下一次技术爆发 [16]