SUPERChem
搜索文档
北大学生与AI同场竞技 胜负花落谁家?
央广网· 2026-01-05 17:23
项目背景与目标 - 北京大学化学与分子工程学院联合多个校内团队发布了名为SUPERChem的评估项目,旨在为人工智能在化学领域的能力建立高标准的评估“标尺” [1] - 项目通过让174位北大化学学院大二学生与GPT、Gemini、DeepSeek等世界顶尖AI模型同场竞技,以测试AI在需要深度推理的自然科学领域的表现 [1] - 项目主创人员表示,此举并非为了证明AI的短板,而是为了推动AI在自然科学领域的发展,并引导计算机研究者如何训练模型以辅助科学突破 [8] 评估体系与题库设计 - SUPERChem题库包含500道题目,涵盖“晶体结构的精细解析”、“反应机理的深度推演”、“物化性质的定量计算”等高难度内容 [1] - 出题团队由北京大学近百名师生组成,其中包括化学奥赛金牌得主,目的是确保题目新颖,让AI“没见过” [1] - 题目设计采用选择题形式,以避免AI通过背诵和数据泄露来获得答案 [2] - 题库审核流程极为严格,每道题需经历初稿、撰写解析、初审与终审环节,由不同人员把关,通过终审的题目最多迭代过15个版本 [4] 测试结果与表现分析 - 参与测试的174位北大化院本科生取得了40.3%的平均准确率,这本身就说明了题目的高难度 [7] - 接受测试的AI模型表现仅与低年级本科生的平均水平相当,最高正确率低于人类基准 [7] - 具体模型表现:GPT-5 (High) 文本模态正确率为39.6%,多模态为38.5%;Gemini-2.5-Pro (High) 多模态正确率为37.9%;DeepSeek-V3.1-128k (Think) 文本模态正确率为37.3% [7] - 项目主创人员解释,当前主流大模型多为文本基础,多模态能力(如图像理解)不强,而化学涉及大量二维或三维立体信息,这是AI在此类题目中表现不佳的主要原因 [7] 项目意义与行业影响 - 该项目被视作一次主动的“压力测试”,旨在检验人工智能在科学深水区的航行能力,并促使人类重新思考在AI擅长处理“已有知识”的时代,自身的核心竞争力是什么 [8] - 项目推动了教育方式的反思与创新,在北大校园内,越来越多的老师开始改变出题思路,设计AI难以解答的题目,这要求教育者自身进行更深入的学习和更严谨的推理 [9] - 项目团队认为,在人工智能时代,最珍贵的可能不再是“知道什么”,而是“还能想知道什么”,人类最不可替代的价值在于永远能提出新的问题,教育的目标应是保护好这种提问的能力 [9]
174名北大学生能否考过AI? 结果很意外
新浪财经· 2025-12-29 01:21
北京大学SUPERChem项目评估AI化学推理能力 - 北京大学化学与分子工程学院联合多个院系团队,发布了一项名为SUPERChem的最新成果,旨在通过一套高难度、重推理的“北大试卷”来评估大语言模型在科学推理上的真实能力[1] - 研究团队组织了一场特殊的期中考试,让包括GPT、Gemini、DeepSeek在内的顶尖AI模型与174位北大化院大二学生同场竞技,进行一场“图灵测试”[1] - 团队专门构建了包含500道题目的高质量评估集SUPERChem,这些题目源于对高难度试题和前沿专业文献的深度改编,目的是测试AI在未见过题目情况下的硬核推理能力,而非其记忆能力[2] - 出题过程由近百名师生(包括奥赛金牌得主)通过专属协作平台完成,题目需经过严格审核,最多迭代过15个版本,确保了题目的高质量和高门槛[4] - 作为基线,参与测试的北大化院本科生取得了40.3%的平均准确率,这本身就说明了题目的高难度[6] - 测试结果显示,即便是顶尖的AI模型,其成绩也仅与低年级本科生的平均水平相当[5][7] - 研究发现,当题目引入分子结构图等视觉信息时,部分AI模型的准确率不升反降,表明当前AI在将视觉信息转化为化学语义时存在明显的感知瓶颈[7] - 通过详细的评分规则分析发现,AI的推理链条往往在产物结构预测、反应机理识别以及构效关系分析等高阶任务上出现断裂,表明其在处理需要严密逻辑和深刻理解的硬核化学问题时仍力不从心[7] - SUPERChem项目填补了化学领域多模态深度推理评测的空白,并已全面开源,旨在成为全球科学与人工智能领域的公共财富,推动技术进步[8] AI在医疗领域的应用进展 - 北京市房山区燕山医院和北京北儿窦店儿童医院已落地应用“AI儿科医生”,为基层诊疗提供辅助[9][10] - “AI儿科医生”基层版整合了北京儿童医院300余位知名专家的临床智慧与脱敏后的高质量病历数据,构建了覆盖儿童常见病及疑难病的立体化诊疗知识库[9] - 该AI系统依托自然语言处理技术,能模拟专业儿科医生的循证思维,进行多轮病情询问,为患儿提供个性化诊疗建议[10] - 在实际案例中,“AI儿科医生”协助基层医生排除了病理性问题,通过清晰逻辑的追问,最终帮助确诊一名儿童为行为性睡眠障碍,并给出了调整作息等干预方案建议[9] - 北京儿童医院专家认为,“AI儿科医生”判断详细全面,给出的建议具体且贴合实际,为患儿后续诊疗提供了有效参考[10] - 北京儿童医院计划后续在12家北京市儿科医联体成员单位启动“AI儿科医生”推广工作,并通过国家区域医疗中心、儿科医联体等多种场景试点,以“AI儿科医生+真人医生”的“双医模式”赋能全国儿科诊疗能力提升[10]
一场特殊的“期中考”:174名北大学生能否考过AI?
新浪财经· 2025-12-26 22:57
北京大学SUPERChem项目概述 - 北京大学化学与分子工程学院联合计算中心、计算机学院、元培学院团队发布了最新成果SUPERChem 旨在通过一套高难度“北大试卷”冷静丈量AI在科学推理上的真实边界 [1] 评测背景与目的 - 这是一场精心设计的“图灵测试” 让包括GPT、Gemini、DeepSeek在内的AI与174位北大化学与分子工程学院大二学生同场竞技 [1] - 评测核心目的是检验大语言模型是否真的“懂”化学 探究其一维的next token预测能力能否解决二维甚至三维空间中的复杂推理问题 [4] 评测题库设计 - 题库包含500道题目 源于对高难度试题和前沿专业文献的深度改编 旨在避免AI通过“背书”答题 [3][4] - 设计高门槛、重推理、防作弊的试卷是北大化院的独特优势 近百名师生(包括奥林匹克金牌得主)参与出题 [4] - 团队通过专属协作平台和积分激励系统进行学术共创 题目需历经多轮审核 终审通过的题目最多迭代过15个版本 [6] 评测结果:人类基准与AI表现 - 作为基线 参与测试的北大化院本科生取得了40.3%的平均准确率 这本身就说明了题目的硬核程度 [8] - 接受测试的顶尖AI模型成绩仅与低年级本科生的平均水平相当 [9] - 具体模型表现:GPT-5 (High) 文本模态正确率为39.6% 多模态为38.5% Gemini-2.5-Pro (High) 多模态为37.9% DeepSeek-V3.1-128k (Think) 文本模态为37.3% [10] AI在化学推理中的关键短板 - 视觉信息带来困惑 对于部分模型 当引入图像信息时其准确率不升反降 表明AI在将视觉信息转化为化学语义时存在明显的感知瓶颈 [11] - AI的推理链条往往断裂于产物结构预测、反应机理识别以及构效关系分析等高阶任务 在处理需要严密逻辑和深刻理解的硬核化学问题时仍显得力不从心 [15] - 即使选对答案 解题步骤也可能经不起推敲 SUPERChem通过详细的评分规则来鉴别AI是真懂还是装懂 [13] 项目意义与开源 - SUPERChem的诞生填补了化学领域多模态深度推理评测的空白 [16] - 该项目旨在推动AI发展 标志着从通用的聊天机器人到能够理解构效关系、推演反应机理的专业科学助手之间仍有很长的路要走 [16] - 目前SUPERChem项目已全面开源 团队希望这套源自北大的“试卷”能成为全球科学与人工智能领域的公共财富 催化下一次技术爆发 [16]