毫无征兆,DeepSeek R1爆更86页论文,这才是真正的Open
Seek .Seek .(US:SKLTY) 36氪·2026-01-09 11:12

论文核心更新与行业意义 - DeepSeek将R1模型的论文从22页大幅更新至86页,将其升级为一份开源社区可完全复现的详细技术报告,证明了仅通过强化学习即可显著提升AI推理能力 [1][2] - 此次更新被行业观察者视为一个重要里程碑,表明开源模型不仅能在性能上追平主流闭源模型,甚至在某些方面能为行业提供技术指引 [1][16] 模型性能与基准测试结果 - 在多项基准测试中,DeepSeek R1的表现与OpenAI o1模型相媲美,甚至超越了o1-mini、GPT-4o及Claude 3.5 Sonnet等模型 [5] - 在数学推理任务上表现突出:在AIME 2024测试中达到79.8%的通过率,与OpenAI o1-1217的79.2%基本持平;在MATH-500测试中以97.3%的通过率领先于o1-1217的96.4% [7][10] - 在编程任务上实力强劲:在Codeforces竞赛中评级达到2029,百分位为96.3%,解题能力超过93.6%的人类参赛者 [7][13] - 在人类偏好评估(Chatbot Arena)中,DeepSeek-R1在启用风格控制后,与OpenAI o1及Gemini-Exp-1206并列第一 [15][16] 技术方法与训练细节 - 公司采用了纯强化学习方法提升模型推理能力,并详细公布了训练数据配方:RL阶段使用了数学(26,000题)、代码(17,000条)、STEM(22,000)、逻辑(15,000)和通用(66,000)数据;SFT阶段使用了约800,000条数据 [4][19] - 训练成本透明化:DeepSeek-R1-Zero阶段消耗101,000 H800 GPU小时,SFT数据创建消耗5,000小时,DeepSeek-R1训练消耗41,000小时,总计约147,000 GPU小时,以美元计总成本约为29.4万美元 [4][23][24] - 成功实现了推理能力的知识蒸馏:将R1的推理能力迁移至参数量为1.5B、7B、8B、14B、32B、70B等多种规模的“学生”模型上,显著提升了同尺寸模型的性能 [20][21][22] 模型能力深度分析 - DeepSeek-R1-Zero在训练中展现出“智能涌现”现象:对于MATH数据集中高难度问题(4-5级),其准确率从训练初期的约0.55-0.78显著提升至0.90-0.95 [26] - 模型在训练过程中学会了反思行为:在生成长链文本时,使用“wait”、“mistake”、“however”等反思性词汇的频率相比训练初期增加了5到7倍 [28][29] 模型架构与对比 - DeepSeek-R1采用混合专家模型架构,激活参数为370亿,总参数量为6710亿,与DeepSeek-V3一致 [7][12] - 在多项综合评测中表现优异:在AlpacaEval 2.0中LC-winrate达到87.6%,在ArenaHard(GPT-4-1106)中达到92.3%,在长上下文问答任务FRAMES上准确率达到82.5% [7][10] 安全性评估 - 公司构建了全面的安全评估体系,包括官方风险控制、六项公开安全基准测试、内部安全测试集(1,120道题)、多语言安全评估(覆盖50种语言,共9,330题)以及越狱攻击稳健性评估 [31][32][38][42] - 在整体安全性上,DeepSeek-R1与其他前沿模型表现相当,但在涉及“知识产权”的HarmBench测试中表现欠佳 [35] - 启用风险控制系统后,模型在多语言环境下的整体安全得分达到85.9%,接近Claude-3.7-Sonnet的88.3% [35][42] - 越狱攻击测试显示,开源基础模型的越狱风险相对更高,但DeepSeek的风险控制系统能有效降低不安全回答的比例 [44][45] 关键成功因素与经验总结 - 强大的基础模型是RL训练取得显著收益的前提,公司实验表明从小规模模型起步未能获得实质性提升 [46] - 可靠且准确的验证器(奖励模型)对于防止奖励作弊至关重要,基于规则的奖励模型或使用大语言模型进行答案一致性判断是两种有效方式 [47] - 迭代式训练流水线需要监督微调与强化学习相结合,二者缺一不可,单独依赖任一方均存在局限 [48][50]