Physics Supernova

搜索文档
AI攻克物理奥赛,王梦迪团队打造Physics Supernova智能体,超过人类金牌选手平均分
36氪· 2025-09-16 16:20
AI系统性能表现 - Physics Supernova在2025年国际物理奥林匹克竞赛理论题测试中获得23.5分(满分30分),在406名参赛者中排名第14 [1] - 该系统在三道题目中均进入人类前10%,超过人类金牌选手平均得分 [1] - 成绩显示AI在复杂科学问题上的推理能力已逼近人类顶尖水平 [3] 技术架构与工具集成 - 系统基于smolagents框架并采用CodeAgent架构,具备动态调用工具的自我规划能力 [4] - 集成专用工具ImageAnalyzer处理图像数据,通过视觉语言模型执行精确数值读取与测量 [6] - 配备AnswerReviewer工具用于识别错误类型并提升自我校正能力,移除该工具会导致非简单题性能显著下降 [6] - 接入WolframAlpha计算型知识引擎以增强专业领域知识应对能力 [9] 系统开发背景 - 由普林斯顿大学王梦迪教授团队主导开发,第一作者包括普林斯顿博士Jiahao Qiu和清华姚班本科生史景喆(2021年物理奥赛金牌得主) [1] - 突破传统题库依赖模式,通过多工具模块结合LLM实现从题目理解到建模计算的完整流程 [3] 应用前景与研究方向 - 未来需拓展程序实验或仪器实验能力,机器人技术发展可能使AI Agent具备执行物理实验题的能力 [10] - 需建立可验证的物理计算体系,开发能验证公式、物理表达与直观推理抽象转换的方法 [11] - 长期目标为发展能嵌入现实世界执行复杂物理任务的高级智能体 [12] 行业意义 - 该突破重新定义了AI在科学推理领域的应用边界,为科学探索开辟新可能性 [3] - 合理集成工具的Agent架构被证实能显著提升AI在复杂科学问题上的表现 [3]