训练成本29.4万美元,DeepSeek-R1登Nature封面,首个通过权威期刊同行评审的主流大模型获好评
Seek .Seek .(US:SKLTY) 36氪·2025-09-18 15:55

学术认可与行业透明度 - DeepSeek-R1的相关研究成果于9月17日登上Nature封面,成为首个通过该权威期刊同行评审的主流大模型[1] - 与预印本相比,正式发表的论文补充披露了模型训练成本,为AI研究提供了更透明、更规范的实践范例[1][17] - 此次同行评审被行业专家视为良好趋势,有望推动更多前沿模型开发团队分享技术细节[16] 训练成本与效率 - DeepSeek-R1的总训练成本为29.4万美元,其中DeepSeek-R1-Zero训练成本20.2万美元,SFT数据创建成本1万美元,DeepSeek-R1训练成本8.2万美元[2] - 训练DeepSeek-R1-Zero使用648张H800 GPU,耗时约198小时;训练DeepSeek-R1同样使用648张H800 GPU,训练约80小时[2] - 尽管公司为模型所依托的基础LLM投入了约600万美元,但总成本远低于业内普遍认为的头部模型训练所需的数千万美元[1] 技术创新与方法论 - 公司基于DeepSeek-V3 Base8,采用Group Relative Policy Optimization作为RL框架,并在RL训练前跳过了传统的监督微调阶段[3] - 该方法允许模型不受限制地探索推理路径,避免了人为定义推理模式可能带来的限制,促进了LLM中新推理能力的涌现[3] - 研究团队设计了特定模板,要求模型先在"Think"标签中输出推理过程,再在"Answer"标签中给出最终答案,以便在强化学习中自主探索有效推理路径[6] 模型性能表现 - DeepSeek-R1-Zero在AIME 2024数学竞赛上的pass@1分数从初始的15.6%显著提升至77.9%,采用自洽解码策略后准确率进一步提升至86.7%,超过人类选手平均水平[6] - 在多项基准测试中,DeepSeek-R1表现优异:English MMLU得分90.8,MMLU-Pro得分84.0,IF-Eval Prompt Strict得分83.3,AlpacaEval2.0 LC-winrate得分87.6[13] - 在编程能力方面,Codeforces Percentile达到96.3,Rating达到2029;在数学能力方面,MATH-500 Pass@1达到97.3[13] 训练过程特征 - 在强化学习过程中,DeepSeek-R1-Zero展现出随训练逐步增强的推理能力,并伴有明显的自我进化特征[7] - 模型由内在适应驱动时,其平均推理长度在训练中持续增长并不断修正推理路径,能主动暂停、检视并修正已有推理步骤[7] - 对比DeepSeek-R1-Zero和DeepSeek-R1 Dev1,DeepSeek-R1在各个开发阶段的指令执行表现有显著提升[11]