纯强化学习
搜索文档
DeepSeek 首登《自然》封面:中国大模型创造新历史,做了 OpenAI 不敢做的事
36氪· 2025-09-18 17:56
核心观点 - DeepSeek的R1模型相关论文登上《Nature》封面,标志着其科研成果获得顶级学术期刊认可[2][6] - 该研究首次证明纯强化学习能有效激发大语言模型的推理能力,训练成本仅为29.4万美元[7][47] - 这是首个经过独立同行评审的大语言模型,为行业树立了科学验证的新标杆[10][11][12] 学术认可与行业意义 - 《Nature》是全球影响力最高的期刊之一,h5-index为490,h5-median为784[9] - 与OpenAI、Anthropic、Google仅发布技术报告不同,DeepSeek将模型送入学术体系接受8位独立专家审查[10] - 公开了11页正文、83页补充材料和64页同行评审记录,透明度极高[7][10] - HuggingFace工程师认为此为重要先例,有助于评估系统风险[13] - 《Nature》官方发文呼吁其他公司也将大语言模型提交同行评审[15] 技术创新与方法论 - 核心贡献是纯强化学习框架,无需人类标注思维路径,模型自主学会推理[19][21] - 仅使用规则化奖励信号:答案正确加分,错误减分,不干预思考过程[21][33] - 训练中出现“自我反思、验证、动态调整”等涌现式推理行为[21][35][38] - 在AIME 2024数学竞赛准确率达77.9%,远超人类平均水平[23][31] - 自研GRPO算法通过“组内竞争”估算优势,简化流程并降低资源消耗[47] 模型开发路径 - 从R1-Zero开始:基于6710亿参数MoE架构,跳过传统监督微调,直接进行强化学习[25][26][27] - 训练成本分解:R1-Zero耗20.2万美元,SFT数据创建耗1万美元,最终RL耗8.2万美元[47] - 四阶段进化:R1-Dev1解决可读性问题,R1-Dev2强化推理能力,R1-Dev3扩展通用能力,最终R1完成偏好对齐[41][42][43][44][46] - 最终模型在AlpacaEval 2.0提升25%,Arena-Hard提升17%[47] 数据与训练细节 - 选择Qwen2-7B作为基础模型以避免数据污染问题,实验显示其推理能力超过同期GPT-4o模型[16] - 强化训练后Qwen2-7B-Zero在AIME 2024得分22.3%,远超原始版本7.9%和GPT-4o的9.3%[16] - 明确否认依赖模型蒸馏,强化学习组件独立训练且不依赖于GPT-4等模型的输出[17][18] - 所有训练数据通过网页抓取,未故意加入OpenAI生成内容[7] 性能表现 - 在LiveCodeBench数据集中,R1最终在简单问题准确率100%,中等问题83.45%,困难问题34.44%[45] - 思考长度从几千token增长到上万个token,表明思考深度增加[31] - 在部分代码和理科推理任务上超过GPT-4[23]
登上《自然》!DeepSeek-R1训练方法发布
科技日报· 2025-09-18 16:39
技术突破 - 开源人工智能模型DeepSeek-R1采用纯强化学习方法提升大语言模型推理能力 减少人类输入工作量 [1] - 模型通过解决问题获得奖励强化学习效果 使用强化学习而非人类示例开发推理步骤 降低训练成本与复杂性 [1] - 在数学基准测试中DeepSeek-R1-Zero和DeepSeek-R1分别达到77.9%和79.8%得分 [1] 性能表现 - 模型在数学 编程竞赛及STEM领域研究生水平问题任务上优于传统训练的大语言模型 [1] - 在研究生水平的生物学 物理和化学问题上表现优异 [1] 方法创新 - 包含人类监督下的深入训练阶段以优化推理过程 [1] - 通过展示优质问题解决案例后生成推理模板 [1] - 未来研究可聚焦优化奖励过程以确保推理和任务结果更可靠 [1]
DeepSeek登《Nature》封面 梁文锋带队 首次回应争议
凤凰网· 2025-09-18 15:48
研究突破 - 公司通过纯强化学习框架显著提升大语言模型推理能力 减少对人工标注的依赖[1] - 引入组相对策略优化算法 仅依据最终答案正确性给予奖励 而非模仿人类推理路径[4] - 模型自然涌现自我反思 自我验证及生成长推理链等高级行为 单问题推敲可达数百至上千token[4] 性能表现 - 模型在美国数学邀请赛准确率从15.6%跃升至77.9% 采用自洽解码后达86.7% 超越人类平均水平[4] - 在数学解题 编程竞赛及STEM领域研究生水平问题上均展现更优表现[1] - 通过多阶段优化后 在写作 问答等通用任务上展现流畅性和一致性[5] 成本效率 - 推理成本仅29.4万美元 基础模型训练开销约600万美元 总成本远低于国外巨头[3] - 相比OpenAI训练GPT-4的1亿美元成本 实现数量级降低[3] - 突破行业"资金即壁垒"共识 展现算法创新对成本结构的颠覆性影响[3][8] 技术路径 - 采用非传统训练方式 并非通过复制OpenAI模型推理示例学习[1] - 基础模型基于网络训练 会吸收互联网已有AI生成内容[1] - 方法论被《自然》评论为"让AI学会自己思考" 而非"教AI思考"[4][5] 行业影响 - 研究被《自然》杂志收录并登上封面 标志中国AI领域重大突破[1] - 被Nature审稿人评价为"开启推理革命" 多机构开始应用该方法论改善现有模型[9] - 推动行业竞争从"数据与算力军备竞赛"转向"算法与智慧创新竞赛"[9] 团队背景 - 创始人梁文锋具浙江大学信息与通信工程硕士背景 专注机器视觉与量化交易领域[7] - 曾创办雅克比投资及幻方科技 2023年转向通用人工智能领域[8] - 团队建设坚持"能力为先" 核心岗位由应届生及低年限经验人员构成 自主培养人才[8]
DeepSeek登《Nature》封面,梁文锋带队,首次回应“蒸馏”争议
凤凰网· 2025-09-18 14:17
技术突破 - 公司通过纯强化学习框架显著提升大语言模型推理能力 减少对人工标注依赖[5] - 引入组相对策略优化算法 仅依据最终答案正确与否给予奖励 而非模仿人类推理路径[6] - 模型自然涌现自我反思 自我验证及生成长推理链条等高级行为 在数学测试中生成数百至数千token反复推敲问题[7] 性能表现 - 美国数学邀请赛准确率从15.6%跃升至77.9% 使用自洽解码后达86.7% 超越人类平均水平[7] - 在数学解题 编程竞赛及STEM领域研究生水平问题上表现优于传统训练方式[5] - 多阶段优化后不仅在硬核任务表现突出 在写作问答等通用任务展现流畅性和一致性[7] 成本优势 - 模型推理成本仅29.4万美元 基础模型训练开销约600万美元 远低于国外巨头[6] - 相比OpenAI训练GPT-4的1亿美元成本 实现数量级降低[6] - 低成本高推理能力突破源于算法创新和团队培养理念[6][9] 行业影响 - 打破资金即壁垒的行业共识 将AI发展主动权交还科学创新[10] - 开启全球AI推理革命 多国应用该方法论改善现有大语言模型[10] - 推动行业竞争从数据算力军备竞赛转向算法智慧创新竞赛[11] 研发背景 - 创始人梁文锋拥有浙江大学信息与通信工程硕士背景 专注机器视觉与量化交易领域[8] - 2013年创办幻方科技 2023年转向通用人工智能领域创立DeepSeek[8] - 核心团队由应届毕业生和年轻人才组成 坚持能力为先的自主培养模式[9]
梁文锋发表Nature封面论文:揭开DeepSeek-R1背后的科学原理——强化学习激励大模型推理能力
生物世界· 2025-09-18 09:44
核心观点 - 深度求索公司通过纯强化学习方法训练出DeepSeek-R1推理模型 显著降低算力需求并提升复杂任务表现 [1][2][6] - 该模型在数学编程竞赛及STEM领域研究生水平问题中超越传统LLM表现 并具备指导小模型推理的能力 [2][17][19] - 训练成本仅294万美元 加上基础模型总成本600万美元 远低于同类模型数千万美元花费 [2] 技术方法 - 采用纯强化学习框架(GRPO) 无需人类标注推理轨迹 仅通过最终答案正确性获得奖励信号 [6][10] - 绕过了监督微调阶段 避免人类定义推理模式限制模型探索能力 [10] - 模型自主发展出验证反思和替代方法探索等复杂推理行为 [11] 性能表现 - 在美国数学邀请赛(AIME)测试中pass@1分数从156%提升至779% 自一致性解码后达867% 超越人类参赛者平均水平 [17] - 在编程竞赛及研究生水平生物物理化学问题中表现显著 [19] - 训练过程中出现"顿悟时刻" 模型开始使用"wait"标志发展出自我监控能力 [13] 模型优化 - 通过多阶段训练框架整合拒绝采样强化学习和监督微调 解决可读性差和语言混合问题 [23][24] - 在保持推理能力同时通过非推理数据使模型行为与人类偏好对齐 [24] 能力限制 - 结构化输出和工具使用能力不及现有模型 无法使用搜索引擎和计算器 [32] - 处理简单问题时存在"过度思考"现象 主要优化中英文时可能出现语言混合 [32] - 对提示词敏感 少样本提示会降低性能 尚未广泛应用于软件工程任务 [32] 行业影响 - 研究表明预训练检查点本身具有解决复杂推理任务的潜力 关键因素在于提供困难问题可靠验证器和充足强化学习资源 [29] - 高级推理行为在强化学习过程中有机涌现 为开发更自主自适应的大语言模型铺平道路 [29] - 纯强化学习方法有望解决任何可被验证器评估的任务 未来可能在复杂推理领域超越人类能力 [29]