并行思维技术

搜索文档
刚刚,谷歌「IMO金牌」模型上线Gemini,数学家第一时间证明猜想
机器之心· 2025-08-02 08:55
产品发布与功能升级 - 谷歌向Google AI Ultra订阅用户推出Deep Think功能,并向部分数学家提供全版本Gemini 2.5 Deep Think模型[1] - 新版本融合早期测试反馈和研究突破,较I/O大会发布的版本有显著改进[3] - Deep Think基于IMO金牌模型的变体,推理速度更快且日常体验更佳,在2025年IMO基准测试中保持铜牌级性能[4] 技术特性与创新 - 采用并行思维和强化学习技术,可同时生成多个想法并修订结合,延长推理时间以探索创造性解决方案[12] - 支持与代码执行、Google搜索等工具自动配合,生成更长响应[6] - 在HLE(34.8%)、Live Code Bench V6(87.6%)、IMO2025(60.7%)和AIME 2025(99.2%)等基准测试中表现突出[18] 应用场景与案例 - 帮助数学家Michel van Garrel证明猜想,适用于研究人员解决高度复杂的数学和科学问题[5][19] - 在迭代开发中表现亮眼,如通过单提示词生成细节丰富的体素艺术图像[14] - 擅长算法开发与编程,能处理需要精确表述和时间复杂度的重要编码问题[19] 产品性能对比 - 在Humanity's Last Exam基准中,Deep Think(34.8%)显著优于Gemini 2.5 Pro(21.6%)和OpenAI(20.3%)[20] - IMO 2025数学测试达到铜牌水平(60.7%),远超Gemini 2.5 Pro(31.6%)和OpenAI(16.7%)[20] - 代码生成能力在LiveCodeBench v6达87.6%,领先同类产品[20] 商业化与测试计划 - 当前仅限Google AI Ultra订阅用户使用,每日限制5条/24小时[10] - 计划未来几周通过Gemini API向受信任测试者发布带工具和不带工具的版本[11] - 安全性方面,内容安全性和客观性提升,但拒绝良性请求倾向增强[20]