Workflow
DeepSeek-R1论文登上Nature封面,通讯作者梁文锋
Seek .Seek .(US:SKLTY) 36氪·2025-09-18 08:45

论文核心观点与行业意义 - DeepSeek-R1模型是首个通过权威学术期刊《自然》同行评审的大语言模型,其论文通讯作者为梁文锋[4][6] - 该研究采用强化学习方法训练模型进行推理,使模型学会逐步解决问题并自我验证,显著提高了在编程和研究生水平科学问题上的表现[6] - 将大模型纳入独立同行评审体系被视为从“技术竞赛”迈向“科学纪律”的关键一步,有助于遏制行业乱象、建立公众信任[7][8] 模型训练方法与技术创新 - 开发团队开辟了新思路:即使不用监督微调作为冷启动,通过大规模强化学习也能显著提升模型推理能力[10] - DeepSeek-R1-Zero采用群组相对策略优化降低训练成本,使用准确度和格式两种互补的奖励机制,并设计简单模板引导基础模型先推理后给出答案[10] - 模型在训练中展现出自我进化能力,学会生成数百到数千个推理token,并自然产生反思能力和探索不同解题方法的高级行为[11] - 针对R1模型构建了少量长思维链数据作为冷启动,解决了DeepSeek-R1-Zero可读性差、语言混杂的问题[12][13] - 训练流程包含推理导向的强化学习、拒绝采样和监督微调、用于所有场景的强化学习等多个阶段[14][15][16] 模型性能表现与基准测试 - DeepSeek-R1采用混合专家架构,激活参数370亿,总参数6710亿[20] - 在多项基准测试中表现优异:MMLU-Pro得分84.0,DROP得分92.2,GPQA Diamond得分71.5,AIME 2024得分79.8[20] - 编码能力突出:LiveCodeBench得分65.9,Codeforces评分2029,百分位96.3[20] - 中文任务表现强劲:C-Eval得分91.8,CLUEWSC得分92.8[20] 知识蒸馏与小模型应用 - 通过使用DeepSeek-R1整理的80万个样本对Qwen和Llama等开源模型进行微调,使小模型具备推理能力[18] - 蒸馏效果显著:DeepSeek-R1-Distill-Qwen-32B在AIME 2024达到72.6分,MATH-500达到94.3分[20] - 即使是1.5B小模型也展现出不错推理能力,在AIME 2024获得28.9分,Codeforces评分达到954[20]