Peer Review
搜索文档
DeepSeek登上Nature封面,梁文锋带队回应质疑,R1训练真29.4万美金
36氪· 2025-09-18 09:32
学术成就与行业认可 - DeepSeek-R1论文登上全球顶刊Nature封面,通讯作者梁文锋带队通过强化学习为大模型推理能力开辟全新路径[2] - Nature在封面推荐中高度赞扬DeepSeek-R1成就,该模型成为全球首个经过同行评审的主流大模型[4] - 开源后R1在Hugging Face平台成为最受欢迎模型,下载量突破1090万次[4] - 审稿人Lewis Tunstall认为这是非常值得欢迎的先例,有助于评估系统风险;Huan Sun表示通过严格同行评审验证模型有效性和实用性,其他公司应效仿[7][46] 技术创新与训练方法 - 研究团队彻底抛开对人类推理轨迹依赖,选择强大基础模型DeepSeek-V3 Base,跳过传统SFT阶段[8][10] - 采用简洁强化学习框架,只告知任务格式和奖励信号,模型在AIME 2024解题准确率从15.6%提升至77.9%,配合自洽解码技术达86.7%[10] - 训练过程中模型自发学会用更长思维链探索解题策略,展现出自我反思和系统性探索替代解法等高级能力[14][15] - 观察到明显"顿悟时刻",模型在反思过程中使用"wait"词频率急剧增加,标志推理模式转变[16][17] 成本效益与资源优化 - R1训练成本仅294,000美元,加上基础模型成本约600万美元,远低于OpenAI和谷歌训练成本[5][6] - 具体训练成本分解:DeepSeek-R1-Zero耗202,000美元,SFT数据创建10,000美元,DeepSeek-R1训练82,000美元[6] - GPU资源使用:总147,000 H800 GPU小时,其中R1-Zero占101,000小时,SFT数据创建5,000小时,R1训练41,000小时[6] 算法创新与训练优化 - 采用GRPO算法替代传统PPO,通过组内竞争择优机制简化复杂约束过程,显著降低资源消耗[22][24][26] - 设计双轨制奖励系统:推理任务使用严格基于规则奖励,通用任务引入基于模型奖励让输出更符合人类偏好[27][28][30] - 训练分为多阶段,包括冷启动、两轮强化学习和大规模监督微调,扩展模型知识面和通用能力[19][20] - 关键训练参数:学习率3×10⁻⁶,KL散度系数0.001,GRPO裁剪比率10,推理采样温度1[37] 性能提升与能力表现 - 经过多轮训练,DeepSeek-R1在AlpacaEval 2.0和Arena-Hard等基准上性能提升17%-25%,数学编程等高难度推理保持顶尖水准[25] - 训练第8,200步时将最大文本长度从32,768 Token增至65,536,模型性能和回答长度出现大幅跃升[36] - 针对语言混合问题创造性引入语言一致性奖励,提升中文问题处理时思维链的中文词汇比例[38] 行业影响与未来展望 - 审稿人Lewis Tunstall认为证据表明仅使用强化学习即可获得非常高性能,其他实验室复制尝试验证方法有效性[46] - 研究人员正尝试应用R1方法改进现有大语言模型推理能力,并将其扩展到数学编码以外领域,开启一场革命[48] - 尽管存在结构化输出和工具使用方面局限,但R1为零样本直接提问场景提供高效解决方案[43]