论文更新概览 - DeepSeek在《Nature》封面论文发布近一年后,对DeepSeek-R1的论文进行了大规模更新,新增了64页技术细节,使论文总页数从22页增至86页[1][2][3][5][6] - 新版论文信息量巨大,不仅补充了附录,正文也进行了大幅度翻修,几乎相当于重写[7] - 此次更新在论文即将满一周年之际发布,且未提前透露,由网友自行发现,其时机与详细程度引发市场对DeepSeek后续产品(如R2或V4)的期待[57][59][60][61] 技术细节披露:R1训练路径 - 公司系统性披露了R1完整的四步训练路径,细节详尽如同教科书[11][17] - 第一步:冷启动。使用数千条体现思考过程的思维链数据对模型进行监督微调[13] - 第二步:推理导向强化学习。在保持对话思考风格的同时提升模型能力,并引入语言一致性奖励以解决语种混用问题[14] - 第三步:拒绝采样和再微调。同时加入推理数据和通用数据,旨在让模型兼具推理与写作能力[15] - 第四步:对齐导向强化学习。专注于打磨模型的有用性和安全性,使其行为更贴近人类偏好[16] 技术细节披露:R1-Zero与“反思”涌现 - 公司对R1-Zero模型中“反思”能力的涌现现象进行了补充分析[18][19] - 分析显示,随着训练推进,反思性词汇的出现次数相比训练初期增长了大约5到7倍[21] - 模型在不同训练阶段的反思习惯不同,例如“wait”一词在训练早期几乎不出现,但在训练步数达到8000步后出现明显的峰值曲线[22][23] 技术细节披露:安全架构与评估 - 为提升开源模型的安全性,公司详细披露了安全强化学习细节及评估方式[25][26] - 团队构建了一个包含10.6万条提示的数据集,并依据安全准则标注模型回复,用于训练安全奖励模型[27] - 风险控制系统包含两个流程:1) 通过关键词匹配过滤潜在风险对话;2) 将不安全对话与预设提示拼接,发送给DeepSeek-V3进行审查评估[29][30] - 引入风险控制系统后,模型安全性显著提升,在多个基准测试中表现与前沿模型水平相近[32] 安全性表现对比 - 根据提供的安全评分表,DeepSeek-R1在SST、BBQ、ART、XSTest、DNA*等多个安全基准上的平均得分与Claude-3.7-Sonnet、GPT-4o等主流模型相当[33] - 唯一的例外是在HarmBench测试集的知识产权相关问题上表现不佳[33] - 公司还构建了内部安全评测数据集,包含4大类、28个子类,总计1120道题目,并采用LLM-as-a-Judge范式(使用GPT-4o)进行评估[34][38] 团队稳定性 - 论文作者栏信息显示,DeepSeek核心团队极其稳定[41] - 在论文发表近一年后,18位核心贡献者全员仍在公司团队中[41] - 总计100多位作者中,仅有5位被标记为已离开团队,而去年的版本中有6位被标记,其中一位作者(Ruiqi Ge)已回归团队[42][43][44][45] - 在AI行业人才竞争激烈的背景下,公司团队不仅未出现明显流失,甚至出现了人才“回流”[47]
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开
量子位·2026-01-08 20:08