Mathematical Reasoning

搜索文档

Qwen又立功，全球最快开源模型诞生，超2000 tokens/秒！

量子位· 2025-09-10 18:01

金磊发自凹非寺量子位 | 公众号 QbitAI 全球最快的开源大模型来了——速度达到了每秒2000个tokens！虽然只有320亿参数（32B），吞吐量却是超过典型GPU部署的10倍以上的那种。它就是由阿联酋的穆罕默德·本·扎耶德人工智能大学（MBZUAI）和初创公司G42 AI合作推出的 K2 Think 。名字是不是有点熟悉？没错，它和月之暗面前不久推出的Kimi K2在命名上是有点小撞车，不过阿联酋这个多了个"Think"。但非常有意思的一点是，在K2 Think的背后，确实有 "made in China" 的味道。因为从HuggingFace中的Model tree来看，K2 Think是基于 Qwen 2.5-32B 打造的：目前，K2 Think已经给出了可以体验的地址（见文末）。我们先小试牛刀测试一把IMO的试题： Let a_n = 6^n + 8^n. Determine the remainder when dividing a_{83} by 49. 可以肉眼看到，在没有任何加速的情况下，K2 Think在思考过后输出答案的速度，真的就是"啪的一下"。从底部 ...

Artificial Intelligence

Mathematical Reasoning

Artificial Intelligence

K2 Think

Qwen 2.5 - 32B

Artificial Intelligence

Mathematical Reasoning

Artificial Intelligence

K2 Think

Qwen 2.5 - 32B

全球首个IMO金牌AI诞生！谷歌Gemini碾碎奥数神话，拿下35分震惊裁判

猿大侠· 2025-07-22 11:33

核心观点 - 谷歌DeepMind的Gemini Deep Think模型在IMO竞赛中以自然语言方式破解5道题，获得35分（满分42分），达到金牌标准[3][4][22] - 该成绩获得IMO组委会官方认证，成为首个获此认可的AI系统[6][7][24] - 模型突破在于完全使用自然语言端到端推理，无需形式语言翻译，且在4.5小时比赛时限内完成[26][29] - 相比2024年AlphaProof和AlphaGeometry 2解决4题获28分（银牌）的表现有显著提升[17][19] - 技术核心是Deep Think增强推理模式，结合并行思考技术和强化学习训练[32][33][35] 技术实现 - 采用并行思考技术，同时探索多种解题路径并整合最优答案[33][34] - 通过新颖的强化学习训练，利用多步推理和定理证明数据提升能力[35] - 提供高质量数学问题解决方案集和IMO解题技巧作为知识库[42] - 模型即将向数学家测试者和Google AI Ultra订阅者开放[39] 解题案例 - 第一题（解析几何）：通过设定引理和分类讨论，证明阳光线数量只能是0、1或3条[44][45][52] - 第二题（平面几何）：分五步证明，包括确定旁心位置和引入辅助点性质[54][55][59] - 第三题（函数）：通过上界证明c≤4和下界证明c≥4确定最小实数常数为4[65][66][67] - 第四题（数论）：用五步证明序列性质，包括偶数性分析和动态行为研究[73][74][78] - 第五题（组合博弈）：通过离散化策略和蓄力战术，确定Alice与Bazza的必胜条件区间[84][85][86] 行业影响 - IMO成为AI能力试炼场，数学推理能力接近顶尖人类水平[16][19] - 自然语言与形式化推理结合的AI将成为科研人员重要工具[105] - 谷歌与OpenAI的竞争凸显技术路线差异：官方认证vs自评结果[108][109][129] - OpenAI被质疑未获官方认证且提前公布结果，影响行业声誉[109][112][130] 团队背景 - 项目由Thang Luong领导，他是机器翻译深度学习先驱和注意力机制发明者[95][96][97] - 团队曾开发AlphaGeometry、LaMDA、Bard等知名项目[98]

Artificial Intelligence

Mathematical Reasoning

Artificial Intelligence

Gemini Deep Think

AlphaProof

AlphaGeometry 2

Artificial Intelligence

Mathematical Reasoning

Artificial Intelligence

Gemini Deep Think

AlphaProof

AlphaGeometry 2

DeepSeek开源新模型，数学推理能力大提升

虎嗅· 2025-05-01 08:48

模型发布与版本 - DeepSeek在Hugging Face正式发布DeepSeek-Prover-V2，同步上线模型卡及示例代码，共推出两个版本：7B和671B [1][4] - DeepSeek-Prover-V2-7B基于上一代V1.5模型，支持最长32K上下文输入 [4] - DeepSeek-Prover-V2-671B在DeepSeek-V3-Base基础上训练，推理性能最强 [4] 训练方法与技术 - 训练核心采用"递归+强化学习"组合，由DeepSeek-V3拆解复杂定理生成子目标和推理思路，再通过GRPO算法从候选方案中学习最优解 [3] - 训练分为两阶段：第一阶段采用"专家迭代"方法，模型通过解决难题反哺自身 [5]；第二阶段迁移DeepSeek-V3数学知识并引入形式化数据，构建复杂推理路径 [6] - GRPO强化学习算法引导模型在32个候选证明方案中选择被Lean验证系统判定为正确的答案（奖励1分，否则0分） [8][9] 模型能力与特点 - 671B模型能力被"蒸馏"到7B模型，使小模型在资源有限设备上获得接近大模型的数学推理能力 [10][11] - 提供两种解题风格：快速模式（non-CoT）直接生成精炼答案；逻辑模式（CoT）详细展示推理过程 [12] - DeepSeek-V3负责拆解定理生成推理草图，7B模型完成子证明并拼接完整推理，形成"模糊思考+精确证明"机制 [14][15] 性能评估与数据集 - DeepSeek-Prover-V2-671B在MiniF2F测试中通过率达88.9%，成功解出PutnamBench数据集49道难题 [17] - 推出全新数学形式化数据集ProverBench，包含325道题目，涵盖AIME竞赛题、数论、代数、微积分等10个领域 [18][19] - 在15道AIME竞赛题中，DeepSeek-Prover-V2解出6道，DeepSeek-V3通过多数投票解决8道 [20] 行业趋势与方向 - 大型语言模型在"非正式数学推理"与"正式数学推理"间的表现差距明显缩小，逐步学会写出规范可验证的数学证明 [21][22] - 模型从生成内容迈向生成结构化逻辑，可能最早触碰通用人工智能的底层结构，推理能力成为知识系统边界的关键 [32][33][34] 商业化与部署 - 新模型遵循公开许可证，可通过Hugging Face平台免费下载并支持Transformers接口部署 [23][24] - Novita AI成为首批上线Prover-V2-671B推理服务的第三方提供商 [24]

Seek .(US:SKLTY)

Artificial Intelligence

Mathematical Reasoning

Artificial Intelligence

DeepSeek-Prover-V2

DeepSeek-ProverBench

Artificial Intelligence

Mathematical Reasoning

Artificial Intelligence

DeepSeek-Prover-V2

DeepSeek-ProverBench