Workflow
纯强化学习
icon
搜索文档
DeepSeek 首登《自然》封面:中国大模型创造新历史,做了 OpenAI 不敢做的事
36氪· 2025-09-18 17:56
就在今天,DeepSeek 的大型语言模型 DeepSeek-R1 的研究成果,作为封面文章登上了国际顶尖科学期刊《Nature》。 和 OpenAI 那些动辄上千万美元, 这个只花了 30 万美元训练出来的国产 AI 模型 ,曾经不仅一度引发美股震荡,现在还登上了 Nature 的最新封面。 图片链接:https://www.nature.com/nature/volumes/645/issues/8081 Nature 封面评语 此次登上 Nature 封面的文章,是 DeepSeek 年初在 arXiv 公布的论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》,即 R1 的技术论文。 虽然大体上和年初那篇类似,但是补充了相当多细节。 论文作者名单,梁文锋是通讯作者 正文只有双栏 11 页,补充材料却来到了 83 页;而同行评审,就是审稿人与 DeepSeek 团队就论文某些问题进行讨论的记录(一般叫 rebuttal,反驳),也有 64 页之多。 这些新公开的资料,让我们看到了 De ...
登上《自然》!DeepSeek-R1训练方法发布
科技日报· 2025-09-18 16:39
技术突破 - 开源人工智能模型DeepSeek-R1采用纯强化学习方法提升大语言模型推理能力 减少人类输入工作量 [1] - 模型通过解决问题获得奖励强化学习效果 使用强化学习而非人类示例开发推理步骤 降低训练成本与复杂性 [1] - 在数学基准测试中DeepSeek-R1-Zero和DeepSeek-R1分别达到77.9%和79.8%得分 [1] 性能表现 - 模型在数学 编程竞赛及STEM领域研究生水平问题任务上优于传统训练的大语言模型 [1] - 在研究生水平的生物学 物理和化学问题上表现优异 [1] 方法创新 - 包含人类监督下的深入训练阶段以优化推理过程 [1] - 通过展示优质问题解决案例后生成推理模板 [1] - 未来研究可聚焦优化奖励过程以确保推理和任务结果更可靠 [1]
DeepSeek登《Nature》封面 梁文锋带队 首次回应争议
凤凰网· 2025-09-18 15:48
研究突破 - 公司通过纯强化学习框架显著提升大语言模型推理能力 减少对人工标注的依赖[1] - 引入组相对策略优化算法 仅依据最终答案正确性给予奖励 而非模仿人类推理路径[4] - 模型自然涌现自我反思 自我验证及生成长推理链等高级行为 单问题推敲可达数百至上千token[4] 性能表现 - 模型在美国数学邀请赛准确率从15.6%跃升至77.9% 采用自洽解码后达86.7% 超越人类平均水平[4] - 在数学解题 编程竞赛及STEM领域研究生水平问题上均展现更优表现[1] - 通过多阶段优化后 在写作 问答等通用任务上展现流畅性和一致性[5] 成本效率 - 推理成本仅29.4万美元 基础模型训练开销约600万美元 总成本远低于国外巨头[3] - 相比OpenAI训练GPT-4的1亿美元成本 实现数量级降低[3] - 突破行业"资金即壁垒"共识 展现算法创新对成本结构的颠覆性影响[3][8] 技术路径 - 采用非传统训练方式 并非通过复制OpenAI模型推理示例学习[1] - 基础模型基于网络训练 会吸收互联网已有AI生成内容[1] - 方法论被《自然》评论为"让AI学会自己思考" 而非"教AI思考"[4][5] 行业影响 - 研究被《自然》杂志收录并登上封面 标志中国AI领域重大突破[1] - 被Nature审稿人评价为"开启推理革命" 多机构开始应用该方法论改善现有模型[9] - 推动行业竞争从"数据与算力军备竞赛"转向"算法与智慧创新竞赛"[9] 团队背景 - 创始人梁文锋具浙江大学信息与通信工程硕士背景 专注机器视觉与量化交易领域[7] - 曾创办雅克比投资及幻方科技 2023年转向通用人工智能领域[8] - 团队建设坚持"能力为先" 核心岗位由应届生及低年限经验人员构成 自主培养人才[8]
DeepSeek登《Nature》封面,梁文锋带队,首次回应“蒸馏”争议
凤凰网· 2025-09-18 14:17
技术突破 - 公司通过纯强化学习框架显著提升大语言模型推理能力 减少对人工标注依赖[5] - 引入组相对策略优化算法 仅依据最终答案正确与否给予奖励 而非模仿人类推理路径[6] - 模型自然涌现自我反思 自我验证及生成长推理链条等高级行为 在数学测试中生成数百至数千token反复推敲问题[7] 性能表现 - 美国数学邀请赛准确率从15.6%跃升至77.9% 使用自洽解码后达86.7% 超越人类平均水平[7] - 在数学解题 编程竞赛及STEM领域研究生水平问题上表现优于传统训练方式[5] - 多阶段优化后不仅在硬核任务表现突出 在写作问答等通用任务展现流畅性和一致性[7] 成本优势 - 模型推理成本仅29.4万美元 基础模型训练开销约600万美元 远低于国外巨头[6] - 相比OpenAI训练GPT-4的1亿美元成本 实现数量级降低[6] - 低成本高推理能力突破源于算法创新和团队培养理念[6][9] 行业影响 - 打破资金即壁垒的行业共识 将AI发展主动权交还科学创新[10] - 开启全球AI推理革命 多国应用该方法论改善现有大语言模型[10] - 推动行业竞争从数据算力军备竞赛转向算法智慧创新竞赛[11] 研发背景 - 创始人梁文锋拥有浙江大学信息与通信工程硕士背景 专注机器视觉与量化交易领域[8] - 2013年创办幻方科技 2023年转向通用人工智能领域创立DeepSeek[8] - 核心团队由应届毕业生和年轻人才组成 坚持能力为先的自主培养模式[9]
梁文锋发表Nature封面论文:揭开DeepSeek-R1背后的科学原理——强化学习激励大模型推理能力
生物世界· 2025-09-18 09:44
核心观点 - 深度求索公司通过纯强化学习方法训练出DeepSeek-R1推理模型 显著降低算力需求并提升复杂任务表现 [1][2][6] - 该模型在数学编程竞赛及STEM领域研究生水平问题中超越传统LLM表现 并具备指导小模型推理的能力 [2][17][19] - 训练成本仅294万美元 加上基础模型总成本600万美元 远低于同类模型数千万美元花费 [2] 技术方法 - 采用纯强化学习框架(GRPO) 无需人类标注推理轨迹 仅通过最终答案正确性获得奖励信号 [6][10] - 绕过了监督微调阶段 避免人类定义推理模式限制模型探索能力 [10] - 模型自主发展出验证反思和替代方法探索等复杂推理行为 [11] 性能表现 - 在美国数学邀请赛(AIME)测试中pass@1分数从156%提升至779% 自一致性解码后达867% 超越人类参赛者平均水平 [17] - 在编程竞赛及研究生水平生物物理化学问题中表现显著 [19] - 训练过程中出现"顿悟时刻" 模型开始使用"wait"标志发展出自我监控能力 [13] 模型优化 - 通过多阶段训练框架整合拒绝采样强化学习和监督微调 解决可读性差和语言混合问题 [23][24] - 在保持推理能力同时通过非推理数据使模型行为与人类偏好对齐 [24] 能力限制 - 结构化输出和工具使用能力不及现有模型 无法使用搜索引擎和计算器 [32] - 处理简单问题时存在"过度思考"现象 主要优化中英文时可能出现语言混合 [32] - 对提示词敏感 少样本提示会降低性能 尚未广泛应用于软件工程任务 [32] 行业影响 - 研究表明预训练检查点本身具有解决复杂推理任务的潜力 关键因素在于提供困难问题可靠验证器和充足强化学习资源 [29] - 高级推理行为在强化学习过程中有机涌现 为开发更自主自适应的大语言模型铺平道路 [29] - 纯强化学习方法有望解决任何可被验证器评估的任务 未来可能在复杂推理领域超越人类能力 [29]