通用强化学习

搜索文档
仅用提示词工程摘下IMO金牌!清华校友强强联手新发现,学术界不靠砸钱也能比肩大厂
量子位· 2025-08-02 13:23
核心观点 - 两位清华校友通过设计自我迭代验证流程和提示词优化,使Gemini 2.5 Pro在IMO题目解答中达到金牌水平 [1][4][6] - 基础大模型已具备解决复杂数学推理问题的能力,但需要特定提示词和迭代验证才能充分发挥潜力 [6][7][9] - 该方法突破了单次生成中有限推理预算和初始答案错误的局限性,将LLM潜在能力转化为严谨数学证明 [24] 技术方法 - 采用通用提示词+迭代验证流程,包括初始解决方案生成、自我改进、验证解决方案、审查错误报告、纠正改进解决方案和最终接受/拒绝解决方案六个步骤 [16][17] - 使用Gemini 2.5 Pro作为求解器和验证器,分别采用差异化提示词设计 [16][18] - 验证器模拟IMO评分专家,将问题分为关键错误和论证缺口两类,通过多次迭代降低误判影响 [19][20] - 实验选择IMO 2025题目以避免训练数据污染,设置温度值0.1减少随机错误 [20] 实验结果 - Gemini 2.5 Pro在IMO 6道题目中完成5道,其中前两道题目生成有提示和无提示两种解决方案 [23] - 未解决的第六题因验证器未能区分求解器输出的假阳性答案细节 [24][40] - 使用提示后模型一次独立实验即可解决题目,未使用时思维发散且可能需要多次实验 [39] - 不同题目需要的tokens数在300k到5000k之间,计算时间最快10分钟/题 [38] 模型对比 - Gemini 2.5 Pro在IMO测试中准确率31.55%,成本$431.97,显著高于其他模型 [9] - 对比模型表现:o3(high)准确率16.67%,o4-mini(high)14.29%,Grok 4 11.90%,DeepSeek-R1-0528 6.85% [9] - 研究人员预计使用Grok 4、OpenAI-o系列或多智能体系统可能产生更强数学能力 [25] 研究团队 - 黄溢辰:加州大学伯克利分校物理学博士,曾任职微软AI研究员,研究方向包括量子物理学和机器学习 [28][31] - 杨林:加州大学洛杉矶分校副教授,研究重点为强化学习、机器学习和优化理论,曾获亚马逊教授奖等荣誉 [33][35] - 团队证明学术界利用有限资源也能做出与大厂同等重要的成果 [36][43]
陶哲轩回应OpenAI新模型IMO夺金!GPT-5测试版也曝光了
量子位· 2025-07-20 10:49
OpenAI新模型在IMO竞赛中的表现 - OpenAI最新模型在2025年国际数学奥林匹克竞赛(IMO)中达到金牌水平,成功解决6道题中的5道,获得35分(满分42分),超过金牌线[1][2][11] - 模型在完全模拟人类考试条件下完成测试,包括两场各4.5小时的考试,不借助任何工具或联网,仅通过自然语言写出证明过程[9][11] - 评分过程由三位前IMO奖牌获得者独立完成,需达成一致意见才确定最终分数[13] 技术突破与模型特点 - 该模型并非依赖特定任务方法,而是在通用强化学习和测试时计算扩展方面取得突破[4] - 突破了传统强化学习依赖明确可验证奖励的范式,能够像人类数学家一样构建多页证明[14] - 唯一未解决的第六题属于组合数学领域,与去年谷歌未完成的两道题类型相同[18][19] GPT-5相关动态 - OpenAI员工透露GPT-5即将发布,但IMO金牌模型为实验性研究,暂无发布计划[3] - 第三方开源代码中出现"GPT-5-reasoning-alpha-2025-07-13"字样,随后被删除,结合OpenAI发布前安全测试的惯例,推测GPT-5临近发布[6][8] 行业反应与专家评论 - 数学界顶尖学者陶哲轩指出缺乏统一测试标准,难以公平比较AI能力,强调需预先公布方法论[25][26] - 陶哲轩列举多项可能影响测试结果的因素,如资源分配、辅助工具使用及团队协作等[28][29][30][31][32] - 数学竞赛评测平台MathArena独立测试显示,其他模型如Gemini 2.5 Pro仅获13分(31%),远低于铜牌线19分[34][35][36] 历史对比与行业意义 - 从GSM8K(0.1分钟)到IMO(约100分钟),AI在需要长时间深度思考的数学问题上进步显著[14] - 研究员Alexander Wei表示,2021年预测2025年MATH基准测试仅达30%,实际进展远超预期[39] - DeepMind研究员Archit Sharma的删除推文引发猜测,可能暗示Google模型也达到类似水平[20][21] 公开资料与后续关注 - OpenAI公开了AI解题过程供查阅[42] - MathArena团队期待OpenAI模型发布后进行独立评估[37]
深夜开源首个万亿模型K2,压力给到OpenAI,Kimi时刻要来了?
机器之心· 2025-07-12 10:11
模型发布与市场反应 - 月之暗面正式发布Kimi K2大模型并开源两款商用模型Kimi-K2-Base与Kimi-K2-Instruct[4] - 模型API定价16元人民币/百万token输出[2] - 发布20分钟内Hugging Face下载量接近12K[5] - 网友测试显示其代码能力优于Grok 4且可能成为Claude 4 Sonnet的开源平替[17][20] 技术性能与基准表现 - 在LiveCode Bench等多项基准测试中超越DeepSeek-V3-0324等开源模型成为新SOTA[9] - 部分性能指标赶超GPT-4.1和Claude 4 Opus等闭源模型[9] - 采用混合专家架构(MoE)总参数量1万亿激活参数32亿支持128k上下文长度[21] - 支持工具调用(ToolCalls)JSON模式及互联网搜索功能但不支持视觉[21] 训练技术创新 - 引入MuonClip优化器解决万亿参数训练稳定性问题采用qk-clip技术控制Attention logits爆炸[24][26] - 完成15.5T tokens预训练未出现训练尖峰[28] - 通过减少Attention Heads数量提升长上下文效率增加MoE稀疏性提高token利用率[25] 工具调用与数据合成 - 开发ACEBench启发的pipeline合成数百领域数千种工具生成多轮交互数据[33][34] - 利用LLM作为评判员筛选高质量训练数据减少低质量数据影响[35] - 结合可验证任务奖励与自我评价机制扩展强化学习应用场景[36][37] 行业竞争趋势 - 与Grok 4类似采用大规模工具调用策略[42] - 国内大模型竞争转向算法创新而非单纯堆参数算力以应对算力资源紧缺[43] - HuggingFace联合创始人评价K2开源模型正挑战闭源模型领先地位[21]