AI浪潮下 北大青年这样守护“提问”的能力
中国青年报·2026-01-23 14:30

项目概况 - 北京大学青年科研团队于2024年12月打造了名为SUPERChem的基准测试项目,旨在用一套包含500道高难度试题的基准测试集,以“北大标准”丈量人工智能在化学领域的真实推理能力[1] - 项目设计的核心目的并非为了证明人工智能不行,而是要搞清楚人工智能到底“懂不懂化学”,为人工智能的发展提供更清晰的参考[1] - 项目团队希望这套标准能够推动人工智能逐步掌握化学知识、深化对自然科学理解,并在未来促进科学研究与创新发现,与人类携手共同进步[3] 项目背景与动机 - 团队成员在日常使用中发现,对于科研人员“一眼就能看懂”的分子结构图,人工智能却难以准确识别,导致其在解释化学反应时产生“幻觉”和事实性错误[3] - 团队调研发现,现有的化学人工智能基准测试要么太简单导致模型分数“刷满”缺乏区分度,要么是工具性任务,缺少需要深度推理的、有化学特色的核心任务[3] - 团队认为,化学学科的核心在于三维空间想象、严密逻辑推演和微观世界认知,而当前人工智能大模型依靠数据记忆获得的高分,难以触及这些核心能力[3] - 团队希望建立一套难度更高、更具化学特色的测试基准,不仅要看人工智能能否做对题,还要看其推理过程是否合理[3] - 团队成员提出项目的初心是“在人工智能发展过程中留下自己的痕迹,推动人工智能走得更远”[5] 项目实施与团队协作 - 项目由北京大学化学与分子工程学院的学生发起,学院党委书记裴坚和党委副书记高珍两位老师提供了关键支持,师生在项目中“站在同一起跑线”[4][5] - 团队认为,北京大学化学与分子工程学院在化学竞赛题目积累、顶尖师生资源等方面拥有优势,因此有义务做好这个项目[5] - 为打造包含几百道高难度“原创试题”的题库,团队首先搭建了一个支持多方在线出题的高效协作平台,这对于非计算机专业的团队成员是一项跨界挑战[6] - 团队通过学院各年级群发布了“出题人”招募通知,最终吸引了上百名同学报名,其中77名学生参与了试题设计,包括3位国际化学奥林匹克获奖选手与64位中国化学奥林匹克决赛获奖选手[6] - 团队设计了一套积分激励系统,将出题、审题、修题等任务游戏化,一道题目需历经编写初稿、撰写解析、初审与终审等环节,最多迭代过15个版本[7] 测试设计与方法 - 试题设计从高难度试题和前沿专业文献中汲取灵感,并进行深度改编[6] - 为防止人工智能通过背景信息“作弊”,题目中的药物分子等具有明显特征的名词被替换为“化合物A、B”等指代[7] - 题型全部采用选择题,因为简答或填空题的开放式回答难以客观自动化评价,限制了评估效率与准确性[7] - 为防止人工智能从选项中“蒙对答案”,团队特意将题目的选项数量增加到6-9个[7] - 团队为每一道题目都标注了详细的评分规则,以便清晰区分人工智能是“真懂还是装懂”[8] 测试结果与发现 - 测试结果显示,作为基线,参与测试的174名北京大学化学与分子工程学院大二本科生取得了40.3%的平均准确率[7] - 参与测试的几款顶尖人工智能大模型的成绩仅与低年级本科生平均水平相当,在化学核心能力上仍然存在明显短板[7] - 团队发现,人工智能的推理链条往往断裂于产物结构预测、反应机理识别以及构效关系分析等高阶任务[8] - 当前顶尖模型虽然拥有海量知识储备,但在处理需要严密逻辑和深刻理解的“硬核”化学问题时仍显得力不从心[8] - 团队认为,当前主流人工智能大模型的底层逻辑是基于一维文本序列的预测,无法完全调动多模态能力解读图像,因此不能满足化学学科在二维、三维中分析立体信息的需求[8] 项目影响与未来展望 - 项目测试的影响已延伸至校园,已有不少老师开始创新考核方式,设计人工智能做不出来的题目作为考题,以激发学生更活跃的自主思维[9] - 团队已将SUPERChem项目全面开源,希望这套源自北大的“试卷”能成为全球科学与人工智能领域的公共财富[11] - 已有互联网企业联系团队,希望由此项目延伸出相关知识学习类软件程序的开发[11] - 团队表示,人工智能成长速度太快,下一步将密切关注其迭代更新,增加考核难度和综合性[11] - 未来题库计划从偏向奥林匹克竞赛的专业性,转向集合更多垂直领域的研究课题,改编成更具研究性质的开放性题目,以评估人工智能能否成为自然科学领域的“学术研究者”[11] - 未来随着项目成熟,可能会回归基础知识,打造既适合人工智能又适合人类学习的题库和平台[11] - 团队认为,从通用的聊天机器人到专业的科学助手,中间还有很长的路要走,那是从“记住知识”到“理解物理世界”的跨越[11]

AI浪潮下 北大青年这样守护“提问”的能力 - Reportify