纯强化学习
搜索文档
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开
量子位· 2026-01-08 20:08
论文更新概览 - DeepSeek在《Nature》封面论文发布近一年后,对DeepSeek-R1的论文进行了大规模更新,新增了64页技术细节,使论文总页数从22页增至86页[1][2][3][5][6] - 新版论文信息量巨大,不仅补充了附录,正文也进行了大幅度翻修,几乎相当于重写[7] - 此次更新在论文即将满一周年之际发布,且未提前透露,由网友自行发现,其时机与详细程度引发市场对DeepSeek后续产品(如R2或V4)的期待[57][59][60][61] 技术细节披露:R1训练路径 - 公司系统性披露了R1完整的四步训练路径,细节详尽如同教科书[11][17] - **第一步:冷启动**。使用数千条体现思考过程的思维链数据对模型进行监督微调[13] - **第二步:推理导向强化学习**。在保持对话思考风格的同时提升模型能力,并引入语言一致性奖励以解决语种混用问题[14] - **第三步:拒绝采样和再微调**。同时加入推理数据和通用数据,旨在让模型兼具推理与写作能力[15] - **第四步:对齐导向强化学习**。专注于打磨模型的有用性和安全性,使其行为更贴近人类偏好[16] 技术细节披露:R1-Zero与“反思”涌现 - 公司对R1-Zero模型中“反思”能力的涌现现象进行了补充分析[18][19] - 分析显示,随着训练推进,反思性词汇的出现次数相比训练初期增长了大约5到7倍[21] - 模型在不同训练阶段的反思习惯不同,例如“wait”一词在训练早期几乎不出现,但在训练步数达到8000步后出现明显的峰值曲线[22][23] 技术细节披露:安全架构与评估 - 为提升开源模型的安全性,公司详细披露了安全强化学习细节及评估方式[25][26] - 团队构建了一个包含10.6万条提示的数据集,并依据安全准则标注模型回复,用于训练安全奖励模型[27] - 风险控制系统包含两个流程:1) 通过关键词匹配过滤潜在风险对话;2) 将不安全对话与预设提示拼接,发送给DeepSeek-V3进行审查评估[29][30] - 引入风险控制系统后,模型安全性显著提升,在多个基准测试中表现与前沿模型水平相近[32] 安全性表现对比 - 根据提供的安全评分表,DeepSeek-R1在SST、BBQ、ART、XSTest、DNA*等多个安全基准上的平均得分与Claude-3.7-Sonnet、GPT-4o等主流模型相当[33] - 唯一的例外是在HarmBench测试集的知识产权相关问题上表现不佳[33] - 公司还构建了内部安全评测数据集,包含4大类、28个子类,总计1120道题目,并采用LLM-as-a-Judge范式(使用GPT-4o)进行评估[34][38] 团队稳定性 - 论文作者栏信息显示,DeepSeek核心团队极其稳定[41] - 在论文发表近一年后,18位核心贡献者全员仍在公司团队中[41] - 总计100多位作者中,仅有5位被标记为已离开团队,而去年的版本中有6位被标记,其中一位作者(Ruiqi Ge)已回归团队[42][43][44][45] - 在AI行业人才竞争激烈的背景下,公司团队不仅未出现明显流失,甚至出现了人才“回流”[47]
DeepSeek 首登《自然》封面:中国大模型创造新历史,做了 OpenAI 不敢做的事
36氪· 2025-09-18 17:56
核心观点 - DeepSeek的R1模型相关论文登上《Nature》封面,标志着其科研成果获得顶级学术期刊认可[2][6] - 该研究首次证明纯强化学习能有效激发大语言模型的推理能力,训练成本仅为29.4万美元[7][47] - 这是首个经过独立同行评审的大语言模型,为行业树立了科学验证的新标杆[10][11][12] 学术认可与行业意义 - 《Nature》是全球影响力最高的期刊之一,h5-index为490,h5-median为784[9] - 与OpenAI、Anthropic、Google仅发布技术报告不同,DeepSeek将模型送入学术体系接受8位独立专家审查[10] - 公开了11页正文、83页补充材料和64页同行评审记录,透明度极高[7][10] - HuggingFace工程师认为此为重要先例,有助于评估系统风险[13] - 《Nature》官方发文呼吁其他公司也将大语言模型提交同行评审[15] 技术创新与方法论 - 核心贡献是纯强化学习框架,无需人类标注思维路径,模型自主学会推理[19][21] - 仅使用规则化奖励信号:答案正确加分,错误减分,不干预思考过程[21][33] - 训练中出现“自我反思、验证、动态调整”等涌现式推理行为[21][35][38] - 在AIME 2024数学竞赛准确率达77.9%,远超人类平均水平[23][31] - 自研GRPO算法通过“组内竞争”估算优势,简化流程并降低资源消耗[47] 模型开发路径 - 从R1-Zero开始:基于6710亿参数MoE架构,跳过传统监督微调,直接进行强化学习[25][26][27] - 训练成本分解:R1-Zero耗20.2万美元,SFT数据创建耗1万美元,最终RL耗8.2万美元[47] - 四阶段进化:R1-Dev1解决可读性问题,R1-Dev2强化推理能力,R1-Dev3扩展通用能力,最终R1完成偏好对齐[41][42][43][44][46] - 最终模型在AlpacaEval 2.0提升25%,Arena-Hard提升17%[47] 数据与训练细节 - 选择Qwen2-7B作为基础模型以避免数据污染问题,实验显示其推理能力超过同期GPT-4o模型[16] - 强化训练后Qwen2-7B-Zero在AIME 2024得分22.3%,远超原始版本7.9%和GPT-4o的9.3%[16] - 明确否认依赖模型蒸馏,强化学习组件独立训练且不依赖于GPT-4等模型的输出[17][18] - 所有训练数据通过网页抓取,未故意加入OpenAI生成内容[7] 性能表现 - 在LiveCodeBench数据集中,R1最终在简单问题准确率100%,中等问题83.45%,困难问题34.44%[45] - 思考长度从几千token增长到上万个token,表明思考深度增加[31] - 在部分代码和理科推理任务上超过GPT-4[23]
登上《自然》!DeepSeek-R1训练方法发布
科技日报· 2025-09-18 16:39
技术突破 - 开源人工智能模型DeepSeek-R1采用纯强化学习方法提升大语言模型推理能力 减少人类输入工作量 [1] - 模型通过解决问题获得奖励强化学习效果 使用强化学习而非人类示例开发推理步骤 降低训练成本与复杂性 [1] - 在数学基准测试中DeepSeek-R1-Zero和DeepSeek-R1分别达到77.9%和79.8%得分 [1] 性能表现 - 模型在数学 编程竞赛及STEM领域研究生水平问题任务上优于传统训练的大语言模型 [1] - 在研究生水平的生物学 物理和化学问题上表现优异 [1] 方法创新 - 包含人类监督下的深入训练阶段以优化推理过程 [1] - 通过展示优质问题解决案例后生成推理模板 [1] - 未来研究可聚焦优化奖励过程以确保推理和任务结果更可靠 [1]
DeepSeek登《Nature》封面 梁文锋带队 首次回应争议
凤凰网· 2025-09-18 15:48
研究突破 - 公司通过纯强化学习框架显著提升大语言模型推理能力 减少对人工标注的依赖[1] - 引入组相对策略优化算法 仅依据最终答案正确性给予奖励 而非模仿人类推理路径[4] - 模型自然涌现自我反思 自我验证及生成长推理链等高级行为 单问题推敲可达数百至上千token[4] 性能表现 - 模型在美国数学邀请赛准确率从15.6%跃升至77.9% 采用自洽解码后达86.7% 超越人类平均水平[4] - 在数学解题 编程竞赛及STEM领域研究生水平问题上均展现更优表现[1] - 通过多阶段优化后 在写作 问答等通用任务上展现流畅性和一致性[5] 成本效率 - 推理成本仅29.4万美元 基础模型训练开销约600万美元 总成本远低于国外巨头[3] - 相比OpenAI训练GPT-4的1亿美元成本 实现数量级降低[3] - 突破行业"资金即壁垒"共识 展现算法创新对成本结构的颠覆性影响[3][8] 技术路径 - 采用非传统训练方式 并非通过复制OpenAI模型推理示例学习[1] - 基础模型基于网络训练 会吸收互联网已有AI生成内容[1] - 方法论被《自然》评论为"让AI学会自己思考" 而非"教AI思考"[4][5] 行业影响 - 研究被《自然》杂志收录并登上封面 标志中国AI领域重大突破[1] - 被Nature审稿人评价为"开启推理革命" 多机构开始应用该方法论改善现有模型[9] - 推动行业竞争从"数据与算力军备竞赛"转向"算法与智慧创新竞赛"[9] 团队背景 - 创始人梁文锋具浙江大学信息与通信工程硕士背景 专注机器视觉与量化交易领域[7] - 曾创办雅克比投资及幻方科技 2023年转向通用人工智能领域[8] - 团队建设坚持"能力为先" 核心岗位由应届生及低年限经验人员构成 自主培养人才[8]
DeepSeek登《Nature》封面,梁文锋带队,首次回应“蒸馏”争议
凤凰网· 2025-09-18 14:17
技术突破 - 公司通过纯强化学习框架显著提升大语言模型推理能力 减少对人工标注依赖[5] - 引入组相对策略优化算法 仅依据最终答案正确与否给予奖励 而非模仿人类推理路径[6] - 模型自然涌现自我反思 自我验证及生成长推理链条等高级行为 在数学测试中生成数百至数千token反复推敲问题[7] 性能表现 - 美国数学邀请赛准确率从15.6%跃升至77.9% 使用自洽解码后达86.7% 超越人类平均水平[7] - 在数学解题 编程竞赛及STEM领域研究生水平问题上表现优于传统训练方式[5] - 多阶段优化后不仅在硬核任务表现突出 在写作问答等通用任务展现流畅性和一致性[7] 成本优势 - 模型推理成本仅29.4万美元 基础模型训练开销约600万美元 远低于国外巨头[6] - 相比OpenAI训练GPT-4的1亿美元成本 实现数量级降低[6] - 低成本高推理能力突破源于算法创新和团队培养理念[6][9] 行业影响 - 打破资金即壁垒的行业共识 将AI发展主动权交还科学创新[10] - 开启全球AI推理革命 多国应用该方法论改善现有大语言模型[10] - 推动行业竞争从数据算力军备竞赛转向算法智慧创新竞赛[11] 研发背景 - 创始人梁文锋拥有浙江大学信息与通信工程硕士背景 专注机器视觉与量化交易领域[8] - 2013年创办幻方科技 2023年转向通用人工智能领域创立DeepSeek[8] - 核心团队由应届毕业生和年轻人才组成 坚持能力为先的自主培养模式[9]
梁文锋发表Nature封面论文:揭开DeepSeek-R1背后的科学原理——强化学习激励大模型推理能力
生物世界· 2025-09-18 09:44
核心观点 - 深度求索公司通过纯强化学习方法训练出DeepSeek-R1推理模型 显著降低算力需求并提升复杂任务表现 [1][2][6] - 该模型在数学编程竞赛及STEM领域研究生水平问题中超越传统LLM表现 并具备指导小模型推理的能力 [2][17][19] - 训练成本仅294万美元 加上基础模型总成本600万美元 远低于同类模型数千万美元花费 [2] 技术方法 - 采用纯强化学习框架(GRPO) 无需人类标注推理轨迹 仅通过最终答案正确性获得奖励信号 [6][10] - 绕过了监督微调阶段 避免人类定义推理模式限制模型探索能力 [10] - 模型自主发展出验证反思和替代方法探索等复杂推理行为 [11] 性能表现 - 在美国数学邀请赛(AIME)测试中pass@1分数从156%提升至779% 自一致性解码后达867% 超越人类参赛者平均水平 [17] - 在编程竞赛及研究生水平生物物理化学问题中表现显著 [19] - 训练过程中出现"顿悟时刻" 模型开始使用"wait"标志发展出自我监控能力 [13] 模型优化 - 通过多阶段训练框架整合拒绝采样强化学习和监督微调 解决可读性差和语言混合问题 [23][24] - 在保持推理能力同时通过非推理数据使模型行为与人类偏好对齐 [24] 能力限制 - 结构化输出和工具使用能力不及现有模型 无法使用搜索引擎和计算器 [32] - 处理简单问题时存在"过度思考"现象 主要优化中英文时可能出现语言混合 [32] - 对提示词敏感 少样本提示会降低性能 尚未广泛应用于软件工程任务 [32] 行业影响 - 研究表明预训练检查点本身具有解决复杂推理任务的潜力 关键因素在于提供困难问题可靠验证器和充足强化学习资源 [29] - 高级推理行为在强化学习过程中有机涌现 为开发更自主自适应的大语言模型铺平道路 [29] - 纯强化学习方法有望解决任何可被验证器评估的任务 未来可能在复杂推理领域超越人类能力 [29]