通用物理智能
搜索文档
开源模型首次物理奥赛IPhO夺金!上海AI Lab 235B模型击败GPT-5和Grok-4
量子位· 2025-10-25 14:23
核心观点 - 上海AI Lab的P1-235B-A22B模型在国际物理奥林匹克竞赛中取得21.2分,成为首个在该赛事中获得金牌的开源模型[1][2] - 在覆盖2024-2025年全球13场顶级物理竞赛的HiPhO基准测试中,P1-235B-A22B获得12金1银,与谷歌Gemini-2.5-Pro并列奖牌榜第一,超越了GPT-5的11金以及Grok-4的10金[3][5] - 团队提出的协同进化多智能体系统PhysicsMinions,使P1-235B-A22B在HiPhO基准上的平均得分从35.9分提升至38.4分,在所有模型中取得综合第一,超越了Gemini-2.5-Pro的37.7分和GPT-5的37.4分[21] HiPhO基准测试 - HiPhO是首个专注于最新物理奥赛、采用人类对齐评估的基准,涵盖了2024-2025年最新的13场奥林匹克级别物理竞赛[7] - 评估采用官方评分标准,对答案和过程进行细粒度评分,确保模型得分可直接与人类选手及金银铜牌分数线进行比较[7] 模型训练方法 - 研究团队通过高质量的提取和标注流程,构建了包含数千条奥赛级别题目的训练数据集,每条数据均具有完整的上下文信息和标准解题过程[9] - P1系列模型采用多阶段强化学习流程,应用上下文窗口扩展和通过率过滤两项关键策略,实现了在基座语言模型基础上长期持续的性能提升[10][11][12] PhysicsMinions多智能体系统 - PhysicsMinions是一个专为物理推理设计的协同进化多智能体系统,由逻辑模块、审核模块和视觉模块三个交互式模块组成[13][14][15] - 系统通过自我验证与反思迭代实现物理推理能力跃升,审核模块执行物理验证器和通用验证器的双阶段验证,确保解答的物理一致性和逻辑正确性[13] 模型性能表现 - P1-235B-A22B在IPhO 2025上得分21.2/30,成为首个获得金牌的开源模型[20] - P1-30B-A3B在HiPhO基准上获得8金4银1铜,在现有开源模型中排名第三,超越了o4-mini和Claude-4-Sonnet等闭源模型[21] - P1-30B-A3B相比于基座模型Qwen3-30B-A3B-Thinking-2507,在数学、代码、STEM等基准测试上均取得显著优势,证明了物理推理能力的强大泛化性[22] 开源体系 - P1系列构建了包含模型、算法、评测集和智能体框架的全链路开源体系[6] - 项目提供了论文、数据集和排行榜等完整资源,支持行业进一步研究和应用[24]