Workflow
北大物院200人合作,金牌得主超50人!PHYBench:大模型究竟能不能真的懂物理?
机器之心·2025-04-28 16:04

项目背景与团队 - 北京大学物理学院联合人工智能研究院等多个院系推出全新评测基准PHYBench,由朱华星老师、曹庆宏副院长统筹指导,学生核心团队完成基准设计、项目管理及数据整合 [2] - 项目汇聚200余名学生参与题目编写与测试,包含至少50位全国物理竞赛金牌得主及国际奥赛获奖者,保障了高质量产出 [2] PHYBench核心设计 - 包含500道高质量物理题,覆盖高中物理、大学物理及物理奥赛难度,基于真实物理场景设计 [2][8] - 采用创新评估指标EED Score(表达式树编辑距离),相比传统Accuracy指标具有更细粒度区分能力,500题区分效果相当于1500道0/1评分题目 [10] - 数据集规模在同类高难度评测基准中领先(GSM8K 8.5K题,OlympiadBench 8K题,USAMO仅6题) [8] 评测结果 - 人类专家平均正确率61.9%(EED评分70.5%),前25%受试者达71.4%,显著领先最强AI模型Gemini 2.5 pro(正确率36.9%,EED评分49.5%) [12] - 主流模型表现分层:Gemini 2.5 pro和o3等强推理模型领先,DeepSeek-V3基座模型表现亮眼,QwQ-32B等小型蒸馏模型表现不佳 [14] 能力分析框架 - 提出PP×RR分析模型:物理感知(PP)环节暴露符号理解缺陷,鲁棒推理(RR)环节显示草稿冗长且易犯低级错误 [16][17] - 典型错误包括量纲混淆(占比38.7%)、符号误用(21.3%)等物理感知问题,以及代数错误(17.5%)等推理缺陷 [16] 行业意义与展望 - 突破现有基准依赖生僻知识点或抽象数学题的局限,建立更贴近实际场景的评估体系 [2] - 计划拓展跨学科内容和未解科学谜题,推动AI向具备物理世界认知能力的"智能伙伴"发展 [20]