DeepSeek 首登《自然》封面:中国大模型创造新历史,做了 OpenAI 不敢做的事
Seek .Seek .(US:SKLTY) 36氪·2025-09-18 17:56

核心观点 - DeepSeek的R1模型相关论文登上《Nature》封面,标志着其科研成果获得顶级学术期刊认可[2][6] - 该研究首次证明纯强化学习能有效激发大语言模型的推理能力,训练成本仅为29.4万美元[7][47] - 这是首个经过独立同行评审的大语言模型,为行业树立了科学验证的新标杆[10][11][12] 学术认可与行业意义 - 《Nature》是全球影响力最高的期刊之一,h5-index为490,h5-median为784[9] - 与OpenAI、Anthropic、Google仅发布技术报告不同,DeepSeek将模型送入学术体系接受8位独立专家审查[10] - 公开了11页正文、83页补充材料和64页同行评审记录,透明度极高[7][10] - HuggingFace工程师认为此为重要先例,有助于评估系统风险[13] - 《Nature》官方发文呼吁其他公司也将大语言模型提交同行评审[15] 技术创新与方法论 - 核心贡献是纯强化学习框架,无需人类标注思维路径,模型自主学会推理[19][21] - 仅使用规则化奖励信号:答案正确加分,错误减分,不干预思考过程[21][33] - 训练中出现“自我反思、验证、动态调整”等涌现式推理行为[21][35][38] - 在AIME 2024数学竞赛准确率达77.9%,远超人类平均水平[23][31] - 自研GRPO算法通过“组内竞争”估算优势,简化流程并降低资源消耗[47] 模型开发路径 - 从R1-Zero开始:基于6710亿参数MoE架构,跳过传统监督微调,直接进行强化学习[25][26][27] - 训练成本分解:R1-Zero耗20.2万美元,SFT数据创建耗1万美元,最终RL耗8.2万美元[47] - 四阶段进化:R1-Dev1解决可读性问题,R1-Dev2强化推理能力,R1-Dev3扩展通用能力,最终R1完成偏好对齐[41][42][43][44][46] - 最终模型在AlpacaEval 2.0提升25%,Arena-Hard提升17%[47] 数据与训练细节 - 选择Qwen2-7B作为基础模型以避免数据污染问题,实验显示其推理能力超过同期GPT-4o模型[16] - 强化训练后Qwen2-7B-Zero在AIME 2024得分22.3%,远超原始版本7.9%和GPT-4o的9.3%[16] - 明确否认依赖模型蒸馏,强化学习组件独立训练且不依赖于GPT-4等模型的输出[17][18] - 所有训练数据通过网页抓取,未故意加入OpenAI生成内容[7] 性能表现 - 在LiveCodeBench数据集中,R1最终在简单问题准确率100%,中等问题83.45%,困难问题34.44%[45] - 思考长度从几千token增长到上万个token,表明思考深度增加[31] - 在部分代码和理科推理任务上超过GPT-4[23]