Workflow
AI规模扩展
icon
搜索文档
AI周报 | DeepSeek开源奥数金牌水平模型;前OpenAI 联创称规模扩展时代已终结
第一财经· 2025-11-30 08:48
英伟达反击"大空头"言论;百度新设两大AI部门。 DeepSeek开源首个奥数金牌水平的模型 11月27日晚,DeepSeek悄悄地在Hugging Face 上开源了一个新模型:DeepSeek-Math-V2。这是一个数学 方面的模型,也是目前行业首个达到IMO(国际奥林匹克数学竞赛)金牌水平且开源的模型。在同步发 布的技术论文中,DeepSeek表示,Math-V2的部分性能优于谷歌旗下的Gemini DeepThink,并展示了模 型在IMO-ProofBench基准以及近期数学竞赛上的表现。 点评:行业头部厂商的模型已经又迭代了一轮,11月,先是OpenAI发布了GPT-5.1,几天后xAI发布Grok 4.1,就在上周谷歌发布了Gemini 3系列引爆AI圈,"也该轮到DeepSeek出牌了"。不过,更受外界关注的 仍然是,DeepSeek的旗舰模型到底什么时候更新,行业期待"鲸鱼"的下一个动作。 前OpenAI 联创:AI规模扩展时代已终结 11 月 26 日,Safe Superintelligence(SSI)CEO伊利亚·苏茨克维(Ilya Sutskever)访谈在AI圈刷屏,这 次访谈 ...
DeepSeek-R1与Grok-3:AI规模扩展的两条技术路线启示
Counterpoint Research· 2025-04-09 21:01
核心观点 - DeepSeek-R1 和 Grok-3 代表了AI发展的两种不同路径:前者通过算法创新和高效资源利用实现高性能,后者依赖大规模计算资源投入 [2][8] - 行业趋势正从“原始规模主导”转向“战略效率优先”,算法设计、混合专家模型(MoE)和强化学习成为关键杠杆 [8][10] - 未来AI发展将更注重投资回报率(ROI),平衡规模扩展与算法优化 [8][10] 模型性能与资源对比 - DeepSeek-R1 仅使用约2000块NVIDIA H800 GPU即达到全球前沿推理模型性能,展现高效训练能力 [2] - Grok-3 动用约20万块NVIDIA H100 GPU,性能略优于DeepSeek-R1、GPT-o1和Gemini 2,但资源消耗相差百倍 [2][8] - 两者性能相近,但资源投入差异显著,凸显算法创新可抗衡纯计算规模 [8] 发展路径差异 - Grok-3 采用“蛮力策略”,依赖数十亿美元GPU计算规模,边际性能提升显著但ROI递减 [8] - DeepSeek-R1 通过混合专家模型(MoE)、推理强化学习和高质量数据,以最小硬件代价实现顶尖性能 [8] - 行业可能从“规模法则”转向“算法突破+工程实用主义”的全局发展观 [10] 未来AI趋势 - 集中式训练项目(如Grok-3)成本过高,仅限少数巨头参与,中小机构需转向效率优化策略 [10] - 混合专家模型(MoE)、稀疏化、改进微调和强化学习将成为核心,降低资源消耗 [10] - 新数据训练与强基础模型结合(如RAG或定期微调),可避免持续大规模计算负担 [10]