一场特殊的“期中考”:174名北大学生能否考过AI?
新浪财经·2025-12-26 22:57

北京大学SUPERChem项目概述 - 北京大学化学与分子工程学院联合计算中心、计算机学院、元培学院团队发布了最新成果SUPERChem 旨在通过一套高难度“北大试卷”冷静丈量AI在科学推理上的真实边界 [1] 评测背景与目的 - 这是一场精心设计的“图灵测试” 让包括GPT、Gemini、DeepSeek在内的AI与174位北大化学与分子工程学院大二学生同场竞技 [1] - 评测核心目的是检验大语言模型是否真的“懂”化学 探究其一维的next token预测能力能否解决二维甚至三维空间中的复杂推理问题 [4] 评测题库设计 - 题库包含500道题目 源于对高难度试题和前沿专业文献的深度改编 旨在避免AI通过“背书”答题 [3][4] - 设计高门槛、重推理、防作弊的试卷是北大化院的独特优势 近百名师生(包括奥林匹克金牌得主)参与出题 [4] - 团队通过专属协作平台和积分激励系统进行学术共创 题目需历经多轮审核 终审通过的题目最多迭代过15个版本 [6] 评测结果:人类基准与AI表现 - 作为基线 参与测试的北大化院本科生取得了40.3%的平均准确率 这本身就说明了题目的硬核程度 [8] - 接受测试的顶尖AI模型成绩仅与低年级本科生的平均水平相当 [9] - 具体模型表现:GPT-5 (High) 文本模态正确率为39.6% 多模态为38.5% Gemini-2.5-Pro (High) 多模态为37.9% DeepSeek-V3.1-128k (Think) 文本模态为37.3% [10] AI在化学推理中的关键短板 - 视觉信息带来困惑 对于部分模型 当引入图像信息时其准确率不升反降 表明AI在将视觉信息转化为化学语义时存在明显的感知瓶颈 [11] - AI的推理链条往往断裂于产物结构预测、反应机理识别以及构效关系分析等高阶任务 在处理需要严密逻辑和深刻理解的硬核化学问题时仍显得力不从心 [15] - 即使选对答案 解题步骤也可能经不起推敲 SUPERChem通过详细的评分规则来鉴别AI是真懂还是装懂 [13] 项目意义与开源 - SUPERChem的诞生填补了化学领域多模态深度推理评测的空白 [16] - 该项目旨在推动AI发展 标志着从通用的聊天机器人到能够理解构效关系、推演反应机理的专业科学助手之间仍有很长的路要走 [16] - 目前SUPERChem项目已全面开源 团队希望这套源自北大的“试卷”能成为全球科学与人工智能领域的公共财富 催化下一次技术爆发 [16]

一场特殊的“期中考”:174名北大学生能否考过AI? - Reportify