清库存,DeepSeek突然补全R1技术报告,训练路径首次详细公开
Seek .Seek .(US:SKLTY) 36氪·2026-01-09 11:12

论文更新与信息披露 - 公司对近一年前发表于《Nature》的DeepSeek-R1论文进行了大规模更新,新增了64页技术细节,使论文总页数从22页增至86页 [1] - 此次更新并非简单的附录补充,而是对正文进行了大幅度翻修,信息量巨大,几乎相当于重写了一篇论文 [4] - 论文更新在发布前未进行任何消息透露,是由网友自行发现,更新时机恰逢原论文发布将满一周年 [25] 模型训练路径细节 - 公司系统性披露了DeepSeek-R1的完整四步训练路径:1) 使用数千条思维链数据对模型进行监督微调的冷启动;2) 引入语言一致性奖励的推理导向强化学习;3) 结合推理与通用数据的拒绝采样与再微调;4) 打磨有用性与安全性的对齐导向强化学习 [6] - 训练细节披露极为详尽,包括冷启动数据来源、两轮强化学习的具体作用以及奖励模型设置,被评价为教科书级别 [6] - 公司补充了对R1-Zero模型中“反思”能力涌现的分析,通过追踪“wait”、“mistake”等反思性词汇的出现频率,发现这些词汇在训练后期的出现次数比训练初期增长了大约5到7倍 [7] 安全架构与性能评估 - 为提升开源模型的安全性,公司构建了一个包含10.6万条提示的数据集,用于训练安全奖励模型 [9] - 公司设计了一套风险控制系统,包含潜在风险对话过滤和基于DeepSeek-V3模型的风险审查两个流程 [9][10] - 引入风险控制系统后,模型安全性得到显著提升,在内部构建的包含4大类、28个子类、总计1120道题目的安全评测数据集上,采用GPT-4o作为评判者进行评估 [16][19] - 在多项安全基准测试中,DeepSeek-R1的表现与前沿模型水平相近,例如其平均安全分数达到95.0% [14][16] 团队稳定性与行业对比 - 在AI行业人才竞争激烈的背景下,DeepSeek团队展现出极高的稳定性,原论文的18位核心贡献者在近一年后仍全部在职 [21] - 总计100多位作者中,仅5位被标记为已离开团队,甚至有一位此前离队的作者Ruiqi Ge已回归团队,使得标记星号作者数量从去年的6位减少至5位 [21][22] - 这与硅谷同行如Meta所面临的内部文化挑战和人才争夺战形成鲜明对比 [24] 技术影响与未来展望 - 此次详尽的技术细节披露,极大地推进了DeepSeek-R1模型的可复现性 [25] - 公司在论文发布近一年后仍进行如此大规模的实质性更新,在学术出版界中并不常见 [25] - 此次更新的时间点引发市场对公司可能即将在春节前后发布新产品(如R2或V4)的猜测 [26]