大模型追逐星辰大海，GPT和Gemini国际天文奥赛夺金

大模型在天文奥赛中的卓越表现 - 大型语言模型在国际天文学和天体物理学奥林匹克竞赛中取得金牌级别的成绩，展示了其在复杂科学推理方面的强大能力 [4][5] - GPT-5和Gemini 2.5 Pro两大模型在IOAA基准测试中表现最为突出 [4][12] 评测框架与方法论 - 研究选择IOAA试题作为基准，因其具备更高的生态有效性，能考查复杂推理、创新性问题求解以及多步推导能力 [9][10] - 评估涵盖理论问题（共49个）和数据分析问题（共8个），排除了观测部分 [10] - IOAA题目覆盖广泛的天文主题，包括宇宙学、球面三角、恒星天体物理等，保证了评测的全面性 [10] 理论考试表现 - GPT-5在理论考试中的总体平均得分为84.2% ± 6.1%，Gemini 2.5 Pro为85.6% ± 8.0% [12] - GPT-5在2022年（93.0%）、2023年（89.6%）和2025年（86.8%）的理论考试中取得最高分 [13] - 模型在物理/数学类问题上的表现（准确率67-91%）明显优于几何/空间类问题（准确率49-78%） [24][26] 数据分析考试表现 - GPT-5在数据分析部分的平均得分为88.5% ± 12.6%，高于其理论考试表现 [12][16] - GPT-5在数据分析考试中展现出更强的多模态理解能力，尤其在图像解析和绘图推理方面错误率显著更低 [16] 与人类参赛者的对比 - 大多数大型语言模型的表现超过IOAA金牌门槛，GPT-5在2022、2023与2025年的表现优于当届最佳学生 [17][18] - 在2025年理论考试中，GPT-5得分相对于中位数的比例为443%，排名第一 [19] - 在2023年数据分析考试中，GPT-5得分为100%，相对于中位数的比例为250%，排名第一 [21] 错误分析与能力局限 - 最普遍的错误类型是概念性错误，反映了不正确的处理方法、公式误用和推理缺陷 [26] - 几何或空间推理是第二大错误来源，模型在球面三角学、计时系统和3D可视化方面尤其吃力 [26] - 在数据分析考试中，主要的故障模式包括绘图和图表/图像阅读，计算错误也比理论考试中更常见 [26]