Workflow
通用强化学习
icon
搜索文档
陶哲轩回应OpenAI新模型IMO夺金!GPT-5测试版也曝光了
量子位· 2025-07-20 10:49
OpenAI新模型在IMO竞赛中的表现 - OpenAI最新模型在2025年国际数学奥林匹克竞赛(IMO)中达到金牌水平,成功解决6道题中的5道,获得35分(满分42分),超过金牌线[1][2][11] - 模型在完全模拟人类考试条件下完成测试,包括两场各4.5小时的考试,不借助任何工具或联网,仅通过自然语言写出证明过程[9][11] - 评分过程由三位前IMO奖牌获得者独立完成,需达成一致意见才确定最终分数[13] 技术突破与模型特点 - 该模型并非依赖特定任务方法,而是在通用强化学习和测试时计算扩展方面取得突破[4] - 突破了传统强化学习依赖明确可验证奖励的范式,能够像人类数学家一样构建多页证明[14] - 唯一未解决的第六题属于组合数学领域,与去年谷歌未完成的两道题类型相同[18][19] GPT-5相关动态 - OpenAI员工透露GPT-5即将发布,但IMO金牌模型为实验性研究,暂无发布计划[3] - 第三方开源代码中出现"GPT-5-reasoning-alpha-2025-07-13"字样,随后被删除,结合OpenAI发布前安全测试的惯例,推测GPT-5临近发布[6][8] 行业反应与专家评论 - 数学界顶尖学者陶哲轩指出缺乏统一测试标准,难以公平比较AI能力,强调需预先公布方法论[25][26] - 陶哲轩列举多项可能影响测试结果的因素,如资源分配、辅助工具使用及团队协作等[28][29][30][31][32] - 数学竞赛评测平台MathArena独立测试显示,其他模型如Gemini 2.5 Pro仅获13分(31%),远低于铜牌线19分[34][35][36] 历史对比与行业意义 - 从GSM8K(0.1分钟)到IMO(约100分钟),AI在需要长时间深度思考的数学问题上进步显著[14] - 研究员Alexander Wei表示,2021年预测2025年MATH基准测试仅达30%,实际进展远超预期[39] - DeepMind研究员Archit Sharma的删除推文引发猜测,可能暗示Google模型也达到类似水平[20][21] 公开资料与后续关注 - OpenAI公开了AI解题过程供查阅[42] - MathArena团队期待OpenAI模型发布后进行独立评估[37]
深夜开源首个万亿模型K2,压力给到OpenAI,Kimi时刻要来了?
机器之心· 2025-07-12 10:11
模型发布与市场反应 - 月之暗面正式发布Kimi K2大模型并开源两款商用模型Kimi-K2-Base与Kimi-K2-Instruct[4] - 模型API定价16元人民币/百万token输出[2] - 发布20分钟内Hugging Face下载量接近12K[5] - 网友测试显示其代码能力优于Grok 4且可能成为Claude 4 Sonnet的开源平替[17][20] 技术性能与基准表现 - 在LiveCode Bench等多项基准测试中超越DeepSeek-V3-0324等开源模型成为新SOTA[9] - 部分性能指标赶超GPT-4.1和Claude 4 Opus等闭源模型[9] - 采用混合专家架构(MoE)总参数量1万亿激活参数32亿支持128k上下文长度[21] - 支持工具调用(ToolCalls)JSON模式及互联网搜索功能但不支持视觉[21] 训练技术创新 - 引入MuonClip优化器解决万亿参数训练稳定性问题采用qk-clip技术控制Attention logits爆炸[24][26] - 完成15.5T tokens预训练未出现训练尖峰[28] - 通过减少Attention Heads数量提升长上下文效率增加MoE稀疏性提高token利用率[25] 工具调用与数据合成 - 开发ACEBench启发的pipeline合成数百领域数千种工具生成多轮交互数据[33][34] - 利用LLM作为评判员筛选高质量训练数据减少低质量数据影响[35] - 结合可验证任务奖励与自我评价机制扩展强化学习应用场景[36][37] 行业竞争趋势 - 与Grok 4类似采用大规模工具调用策略[42] - 国内大模型竞争转向算法创新而非单纯堆参数算力以应对算力资源紧缺[43] - HuggingFace联合创始人评价K2开源模型正挑战闭源模型领先地位[21]