论文核心研究成果 - 研究首次证明仅通过强化学习即可激发大语言模型的推理能力,无需依赖人工标注的思维链轨迹数据[1][4] - 提出的强化学习框架促使模型自主演化出高级推理模式,如自我反思、验证和动态策略适应[4][7] - 训练出的模型在数学、编程竞赛和STEM领域等可验证任务上表现卓越,超越了基于人类示范数据进行传统监督学习的模型[4] - 模型展现出的推理模式可系统性地用于指导并增强小型模型的推理能力[4] 模型开发与训练细节 - 模型基于DeepSeek-V3 Base基座模型开发,使用GRPO作为强化学习框架,仅以最终预测答案的正确性作为奖励信号[6][7] - 训练出的DeepSeek-R1-Zero模型倾向于生成更长的回答,其中包含验证、反思和探索备选方案[7] - 在DeepSeek-R1-Zero基础上,通过多阶段训练结合强化学习、拒绝采样和监督微调,开发出既能强推理又能贴合人类偏好的DeepSeek-R1[9] - 团队还蒸馏出小型模型并公开发布,为研究社区提供资源[9] 数据安全与污染防控 - 公司对预训练和后训练数据均实施了全面的去污染措施,例如在预训练数据中识别并删除了约600万条数学领域的潜在污染文本[9] - 后训练阶段的数学数据均来自2023年之前的竞赛,并采用与预训练相同的过滤策略,确保训练与评测数据无重叠[10] - 公司承认去污染方法无法完全防止测试集改写,2024年前发布的部分基准测试仍可能存在污染问题[10] - 基座模型DeepSeek-V3 Base使用的数据全部来自互联网,数据截止时间为2024年7月,当时尚未发布任何公开的先进推理模型[5][12] 模型安全性能评估 - DeepSeek-R1在服务部署中引入了外部风险控制系统,基于关键词匹配并使用DeepSeek-V3进行风险审查[10] - 在公开安全基准测试和内部研究中,DeepSeek-R1在大多数基准上超过了Claude-3.7-Sonnet、GPT-4o等前沿模型[10] - 根据安全评分表,DeepSeek-R1在SST测试中得分为97.5%,在BBQ测试中得分为96.6%,平均安全评分为95.0%[11] 行业意义与学术认可 - 该论文成为全球首个经过同行评审的主流大语言模型,打破了行业空白[1][13] - 《自然》杂志高度评价此项研究是迈向透明度和可重复性的可喜一步,有助于抑制AI行业的过度炒作[1][5] - 论文提交至《自然》后,历经8位外部专家的严格评审,审稿报告与作者回复共计64页,增强了研究的可信度[13][16] - 《自然》呼吁更多AI公司将其模型提交同行评审,以确保声明的验证和澄清[17] 社区影响与开源贡献 - DeepSeek-R1已成为全球最受欢迎的开源推理模型,在Hugging Face上的下载量超过1090万次[1] - 公司积极回应审稿人意见,补充了训练细节、安全报告和数据污染防控等信息[5][9][10] - 该研究成果为开源社区提供了宝贵的科研参考、模型复现思路以及应用支持[17]
刚刚,梁文锋发Nature了
36氪·2025-09-18 07:43