Workflow
DeepSeek-R1与Grok-3:AI规模扩展的两条技术路线启示
SKLTYSeek .(SKLTY) 金融界·2025-04-10 09:30

文章核心观点 - Grok - 3和DeepSeek - R1代表AI发展两种路径,行业或从追求规模转向融合算法突破与工程实用主义,需平衡规模扩展与算法效率 [1][4][5] 模型对比 - Grok - 3性能略优于DeepSeek - R1、GPT - o1和Gemini2,是闭源模型,训练动用约20万块H100GPU,依托xAI“巨像”超级计算机,代表“蛮力策略”,投入大但ROI递减 [2][4] - DeepSeek - R1开源,性能堪比全球前沿推理模型,仅用约2000块NVIDIA H800GPU完成训练,采用混合专家模型等技术,展现算法创新力量,追求以最小硬件代价实现顶尖性能 [1][4] 行业发展路径 - Grok - 3代表“蛮力策略”,通过巨额GPU计算规模提升边际性能,只有富有科技巨头或政府机构能负担 [4] - DeepSeek - R1代表“战略效率优先”,用少量计算资源实现可比性能,标志AI发展或从“原始规模主导”转向该模式 [4] 对未来AI发展的启示 - 耗资大的集中式训练项目或超出多数企业承受范围,AI公司将重视优化与效率策略,如混合专家模型等技术 [5] - 持续新数据训练与强基础模型结合有潜力,中小规模系统可通过检索增强生成或定期微调模拟,避免大规模计算负担 [5] - 行业将从单纯追求规模法则转向融合算法突破与工程实用主义,自研大语言模型机构需平衡规模扩展与算法研究 [5][6]