AI连电路图都看不懂？SeePhys新基准暴击多模态短板，正确率低至55%

SeePhys团队投稿量子位 | 公众号 QbitAI 当前顶尖AI模型是否真能"看懂"物理图像？全谱系多模态物理推理新基准来了，结果 SO TA级模型准确率都不足55% 。新基准名为 SeePhys ，强调了图形感知对于模型认识和理解物理世界的重要性。内容涵盖经典与现代物理的各个知识等级和领域，包括从初中到博士资格考试的全谱系多模态物理问题。它由中山大学、苏黎世联邦理工学院、华为诺亚方舟实验室和香港大学的研究团队联合推出，于近日正式开源。团队在实验中系统性评估了LLM/MLLM在复杂科学图表与理论推导耦合任务中的表现。结果表明即使是Gemini-2.5-Pro和o4-mini等SOTA模型准确率都不足55%，暴露出多模态推理的巨大挑战。团队表示，目前该基准正在ICML 2025 AI for MATH Workshop中开放评估，欢迎学界与工业界的团队来挑战。为什么需要SeePhys？近年来，数学在大语言模型（LLMs）的推理能力评估中大放异彩，而物理学由于其具有与真实场景的强相关性和更复杂的图像信息，正在多模态测评中得到越来越多的重视。物理学不仅知识体系庞大、逻辑链 ...