计算扩展

搜索文档
仅用提示词工程摘下IMO金牌!清华校友强强联手新发现,学术界不靠砸钱也能比肩大厂
量子位· 2025-08-02 13:23
核心观点 - 两位清华校友通过设计自我迭代验证流程和提示词优化,使Gemini 2.5 Pro在IMO题目解答中达到金牌水平 [1][4][6] - 基础大模型已具备解决复杂数学推理问题的能力,但需要特定提示词和迭代验证才能充分发挥潜力 [6][7][9] - 该方法突破了单次生成中有限推理预算和初始答案错误的局限性,将LLM潜在能力转化为严谨数学证明 [24] 技术方法 - 采用通用提示词+迭代验证流程,包括初始解决方案生成、自我改进、验证解决方案、审查错误报告、纠正改进解决方案和最终接受/拒绝解决方案六个步骤 [16][17] - 使用Gemini 2.5 Pro作为求解器和验证器,分别采用差异化提示词设计 [16][18] - 验证器模拟IMO评分专家,将问题分为关键错误和论证缺口两类,通过多次迭代降低误判影响 [19][20] - 实验选择IMO 2025题目以避免训练数据污染,设置温度值0.1减少随机错误 [20] 实验结果 - Gemini 2.5 Pro在IMO 6道题目中完成5道,其中前两道题目生成有提示和无提示两种解决方案 [23] - 未解决的第六题因验证器未能区分求解器输出的假阳性答案细节 [24][40] - 使用提示后模型一次独立实验即可解决题目,未使用时思维发散且可能需要多次实验 [39] - 不同题目需要的tokens数在300k到5000k之间,计算时间最快10分钟/题 [38] 模型对比 - Gemini 2.5 Pro在IMO测试中准确率31.55%,成本$431.97,显著高于其他模型 [9] - 对比模型表现:o3(high)准确率16.67%,o4-mini(high)14.29%,Grok 4 11.90%,DeepSeek-R1-0528 6.85% [9] - 研究人员预计使用Grok 4、OpenAI-o系列或多智能体系统可能产生更强数学能力 [25] 研究团队 - 黄溢辰:加州大学伯克利分校物理学博士,曾任职微软AI研究员,研究方向包括量子物理学和机器学习 [28][31] - 杨林:加州大学洛杉矶分校副教授,研究重点为强化学习、机器学习和优化理论,曾获亚马逊教授奖等荣誉 [33][35] - 团队证明学术界利用有限资源也能做出与大厂同等重要的成果 [36][43]
黄仁勋,碰到大麻烦
半导体行业观察· 2025-03-30 10:56
一切都从这里开始 其中第一个也是最明显的挑战是围绕计算扩展(scaling compute)。 近年来,工艺技术的进步已经放缓。虽然仍有一些可以改变的因素,但改变的难度却呈指数级增 长。 如果您希望可以时常见面,欢迎标星收藏哦~ 正如黄仁勋 (Jensen Huang) 喜欢说的那样,摩尔定律已死——而在本月的 Nvidia GTC 大会上,这 位 GPU 大佬的首席执行官无意中透露了计算缩放定律的根深蒂固。 黄仁勋站在台上,不仅展示了这家芯片设计公司的下一代Blackwell Ultra处理器,还透露了有关其 未来两代加速计算平台的大量细节,其中包括一个包含576 个 GPU 的600kW 机架级系统。我们还 了解到,即将于 2028 年问世的 GPU 系列将以Richard Feynman的名字命名。你肯定在开玩笑! 芯片制造商不时透露其发展路线图并不罕见,但我们通常不会一次性获得这么多信息。这是因为 Nvidia 陷入了困境。它遇到的障碍不只一个,而是好几个。更糟糕的是,除了投入资金解决问题 外,这些障碍基本上都不受 Nvidia 的控制。 这些挑战对于那些关注的人来说并不意外。分布式计算一直是瓶颈打地 ...