174名北大学生能否考过AI? 结果很意外
新浪财经·2025-12-29 01:21

北京大学SUPERChem项目评估AI化学推理能力 - 北京大学化学与分子工程学院联合多个院系团队,发布了一项名为SUPERChem的最新成果,旨在通过一套高难度、重推理的“北大试卷”来评估大语言模型在科学推理上的真实能力[1] - 研究团队组织了一场特殊的期中考试,让包括GPT、Gemini、DeepSeek在内的顶尖AI模型与174位北大化院大二学生同场竞技,进行一场“图灵测试”[1] - 团队专门构建了包含500道题目的高质量评估集SUPERChem,这些题目源于对高难度试题和前沿专业文献的深度改编,目的是测试AI在未见过题目情况下的硬核推理能力,而非其记忆能力[2] - 出题过程由近百名师生(包括奥赛金牌得主)通过专属协作平台完成,题目需经过严格审核,最多迭代过15个版本,确保了题目的高质量和高门槛[4] - 作为基线,参与测试的北大化院本科生取得了40.3%的平均准确率,这本身就说明了题目的高难度[6] - 测试结果显示,即便是顶尖的AI模型,其成绩也仅与低年级本科生的平均水平相当[5][7] - 研究发现,当题目引入分子结构图等视觉信息时,部分AI模型的准确率不升反降,表明当前AI在将视觉信息转化为化学语义时存在明显的感知瓶颈[7] - 通过详细的评分规则分析发现,AI的推理链条往往在产物结构预测、反应机理识别以及构效关系分析等高阶任务上出现断裂,表明其在处理需要严密逻辑和深刻理解的硬核化学问题时仍力不从心[7] - SUPERChem项目填补了化学领域多模态深度推理评测的空白,并已全面开源,旨在成为全球科学与人工智能领域的公共财富,推动技术进步[8] AI在医疗领域的应用进展 - 北京市房山区燕山医院和北京北儿窦店儿童医院已落地应用“AI儿科医生”,为基层诊疗提供辅助[9][10] - “AI儿科医生”基层版整合了北京儿童医院300余位知名专家的临床智慧与脱敏后的高质量病历数据,构建了覆盖儿童常见病及疑难病的立体化诊疗知识库[9] - 该AI系统依托自然语言处理技术,能模拟专业儿科医生的循证思维,进行多轮病情询问,为患儿提供个性化诊疗建议[10] - 在实际案例中,“AI儿科医生”协助基层医生排除了病理性问题,通过清晰逻辑的追问,最终帮助确诊一名儿童为行为性睡眠障碍,并给出了调整作息等干预方案建议[9] - 北京儿童医院专家认为,“AI儿科医生”判断详细全面,给出的建议具体且贴合实际,为患儿后续诊疗提供了有效参考[10] - 北京儿童医院计划后续在12家北京市儿科医联体成员单位启动“AI儿科医生”推广工作,并通过国家区域医疗中心、儿科医联体等多种场景试点,以“AI儿科医生+真人医生”的“双医模式”赋能全国儿科诊疗能力提升[10]

174名北大学生能否考过AI? 结果很意外 - Reportify