Workflow
优化理论
icon
搜索文档
仅用提示词工程摘下IMO金牌!清华校友强强联手新发现,学术界不靠砸钱也能比肩大厂
量子位· 2025-08-02 13:23
核心观点 - 两位清华校友通过设计自我迭代验证流程和提示词优化,使Gemini 2.5 Pro在IMO题目解答中达到金牌水平 [1][4][6] - 基础大模型已具备解决复杂数学推理问题的能力,但需要特定提示词和迭代验证才能充分发挥潜力 [6][7][9] - 该方法突破了单次生成中有限推理预算和初始答案错误的局限性,将LLM潜在能力转化为严谨数学证明 [24] 技术方法 - 采用通用提示词+迭代验证流程,包括初始解决方案生成、自我改进、验证解决方案、审查错误报告、纠正改进解决方案和最终接受/拒绝解决方案六个步骤 [16][17] - 使用Gemini 2.5 Pro作为求解器和验证器,分别采用差异化提示词设计 [16][18] - 验证器模拟IMO评分专家,将问题分为关键错误和论证缺口两类,通过多次迭代降低误判影响 [19][20] - 实验选择IMO 2025题目以避免训练数据污染,设置温度值0.1减少随机错误 [20] 实验结果 - Gemini 2.5 Pro在IMO 6道题目中完成5道,其中前两道题目生成有提示和无提示两种解决方案 [23] - 未解决的第六题因验证器未能区分求解器输出的假阳性答案细节 [24][40] - 使用提示后模型一次独立实验即可解决题目,未使用时思维发散且可能需要多次实验 [39] - 不同题目需要的tokens数在300k到5000k之间,计算时间最快10分钟/题 [38] 模型对比 - Gemini 2.5 Pro在IMO测试中准确率31.55%,成本$431.97,显著高于其他模型 [9] - 对比模型表现:o3(high)准确率16.67%,o4-mini(high)14.29%,Grok 4 11.90%,DeepSeek-R1-0528 6.85% [9] - 研究人员预计使用Grok 4、OpenAI-o系列或多智能体系统可能产生更强数学能力 [25] 研究团队 - 黄溢辰:加州大学伯克利分校物理学博士,曾任职微软AI研究员,研究方向包括量子物理学和机器学习 [28][31] - 杨林:加州大学洛杉矶分校副教授,研究重点为强化学习、机器学习和优化理论,曾获亚马逊教授奖等荣誉 [33][35] - 团队证明学术界利用有限资源也能做出与大厂同等重要的成果 [36][43]