Workflow
AI连电路图都看不懂?SeePhys新基准暴击多模态短板,正确率低至55%
量子位·2025-05-29 09:08

SeePhys团队 投稿 量子位 | 公众号 QbitAI 当前顶尖AI模型是否真能"看懂"物理图像? 全谱系多模态物理推理新基准来了,结果 SO TA级模型准 确率都不足55% 。 新基准名为 SeePhys ,强调了图形感知对于模型认识和理解物理世界的重要性。 内容涵盖经典与现代物理的各个知识等级和领域,包括 从初中到博士资格考试的全谱系多模态物理问题 。 它由中山大学、苏黎世联邦理工学院、华为诺亚方舟实验室和香港大学的研究团队联合推出,于近日 正式开源 。 团队在实验中系统性评估了LLM/MLLM在复杂科学图表与理论推导耦合任务中的表现。 结果表明即使是Gemini-2.5-Pro和o4-mini等SOTA模型准确率都不足55%,暴露出多模态推理的巨大挑战。 团队表示,目前该基准正在ICML 2025 AI for MATH Workshop中开放评估,欢迎学界与工业界的团队来挑战。 为什么需要SeePhys? 近年来,数学在大语言模型 (LLMs) 的推理能力评估中大放异彩,而物理学由于其具有与真实场景的强相关性和更复杂的图像信息,正在 多模态测评中得到越来越多的重视。 物理学不仅知识体系庞大、逻辑链 ...