Workflow
SUPERChem
icon
搜索文档
北大学生与AI同场竞技 胜负花落谁家?
央广网· 2026-01-05 17:23
央广网北京1月5日消息(记者李欣)据中央广播电视总台中国之声报道,现在人工智能在各个领域的应用备受瞩目,但它的"智商"到底有多高,尤其是 在需要深度推理的自然科学领域,表现如何呢?今天(5日),我们关注一个由北京大学师生发起的新项目,他们正试图为人工智能的化学能力,打造一把 高标准的"标尺"。 想知道北大学生跟AI比了什么,我们可以打开SUPERChem的题库来看一看,打开的瞬间,"压迫感"就来了,"晶体结构的精细解析""反应机理的深度推 演""物化性质的定量计算"等等,这些内容,你能看懂吗?根据项目主创人员,北京大学化学与分子工程学院博士研究生黄志贤的介绍,这500道题的出题 人,是北大的近百名师生,而且其中不乏化学奥赛金牌得主,目的就是要让AI"没见过"。 黄志贤说:"首先要搭建一个平台,之前基本是有化学奥赛背景的同学才能够使用这个平台,让大家在上面编写题目。因为它(AI)看过很多文献、知 识库,为了保证这个评估的准确性,我们用了选择题,我们会去做一些题目的设计,避免它背诵以及(数据)泄露。" 考试现场(北大供图) 为了考察出AI是否真的"懂"化学,北大的百人出题团把出题变成了"通关",一道题目需要经历初 ...
174名北大学生能否考过AI? 结果很意外
新浪财经· 2025-12-29 01:21
在北京大学化学与分子工程学院,期中考前突如其来的一条通知,却让这场考试的气氛变得不同寻常: 考场里迎来的一批"特殊考生"。它们不需要落座,也无需纸笔。它们是GPT、Gemini、DeepSeek……这 些当下世界上最聪明的AI,正在云端与174位北大化学与分子工程学院的大二学生同场竞技。 晶体结构的精细解析、反应机理的深度推演、物化性质的定量计算……这500道题目并非来自网络上随 手可得的公开题库,而是源于对高难度试题和前沿专业文献的深度改编。 为什么要费尽周折重新出题? "因为大模型太会'背书'了。"团队成员解释道。互联网可及的测试题大多已被博闻强识的AI在训练阶段 熟读。而化学,恰恰是一门不能只靠死记硬背的学科。它既有严密的逻辑推演,又充满了对微观世界的 空间想象。"我们非常好奇,大语言模型的一维 next token prediction,能否解决二维、甚至三维空间中 的复杂推理问题。" 要设计一套让AI"没见过"、必须靠硬实力推理的题目,难度极高。然而,这正是北大化院的独特优势所 在。近百名师生——其中不乏奥赛金牌得主——集结起来,决定给AI出一套高门槛、重推理、防作弊 的试卷。 这是一场精心设计的" ...
一场特殊的“期中考”:174名北大学生能否考过AI?
新浪财经· 2025-12-26 22:57
转自:北京日报客户端 在北京大学化学与分子工程学院,有机化学考试是许多同学痛并快乐着的挑战。然而,期中考前突如其 来的一条通知,却让这场考试的气氛变得不同寻常: "请注意,本次考试范围不仅限于有机化学。" 近日,北京大学化学与分子工程学院联合北大计算中心、计算机学院、元培学院团队,发布了最新成果 SUPERChem。近期,他们以一套"北大试卷"为标尺,冷静丈量着AI在科学推理上的真实边界。 考试现场 一场特殊的期中考 打开SUPERChem的题库,一种"压迫感"扑面而来。 晶体结构的精细解析、反应机理的深度推演、物化性质的定量计算……这500道题目并非来自网络上随 手可得的公开题库,而是源于对高难度试题和前沿专业文献的深度改编。 为什么要费尽周折重新出题? 但比起考试范围的变化,考场里迎来的一批"特殊考生",更让人意想不到。 它们不需要落座,也无需纸笔。它们是GPT、Gemini、DeepSeek……这些当下世界上最聪明的AI,正在 云端与174位北大化学与分子工程学院的大二学生同场竞技。 这是一场精心设计的"图灵测试",也是北大科研团队为大语言模型投下的一块"试金石"。 "因为大模型太会'背书'了。"团队成 ...