纯强化学习 - 财报，业绩电话会，研报，新闻

纯强化学习

搜索文档

DeepSeek 首登《自然》封面：中国大模型创造新历史，做了 OpenAI 不敢做的事

36氪· 2025-09-18 17:56

就在今天，DeepSeek 的大型语言模型 DeepSeek-R1 的研究成果，作为封面文章登上了国际顶尖科学期刊《Nature》。和 OpenAI 那些动辄上千万美元，这个只花了 30 万美元训练出来的国产 AI 模型，曾经不仅一度引发美股震荡，现在还登上了 Nature 的最新封面。图片链接：https://www.nature.com/nature/volumes/645/issues/8081 Nature 封面评语此次登上 Nature 封面的文章，是 DeepSeek 年初在 arXiv 公布的论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》，即 R1 的技术论文。虽然大体上和年初那篇类似，但是补充了相当多细节。论文作者名单，梁文锋是通讯作者正文只有双栏 11 页，补充材料却来到了 83 页；而同行评审，就是审稿人与 DeepSeek 团队就论文某些问题进行讨论的记录（一般叫 rebuttal，反驳），也有 64 页之多。这些新公开的资料，让我们看到了 De ...

登上《自然》！DeepSeek-R1训练方法发布

科技日报· 2025-09-18 16:39

技术突破 - 开源人工智能模型DeepSeek-R1采用纯强化学习方法提升大语言模型推理能力减少人类输入工作量 [1] - 模型通过解决问题获得奖励强化学习效果使用强化学习而非人类示例开发推理步骤降低训练成本与复杂性 [1] - 在数学基准测试中DeepSeek-R1-Zero和DeepSeek-R1分别达到77.9%和79.8%得分 [1] 性能表现 - 模型在数学编程竞赛及STEM领域研究生水平问题任务上优于传统训练的大语言模型 [1] - 在研究生水平的生物学物理和化学问题上表现优异 [1] 方法创新 - 包含人类监督下的深入训练阶段以优化推理过程 [1] - 通过展示优质问题解决案例后生成推理模板 [1] - 未来研究可聚焦优化奖励过程以确保推理和任务结果更可靠 [1]

Seek .(US:SKLTY)

大语言模型推理能力提升

纯强化学习

Artificial Intelligence

DeepSeek-R1

大语言模型推理能力提升

纯强化学习

Artificial Intelligence

DeepSeek-R1

DeepSeek登《Nature》封面梁文锋带队首次回应争议

凤凰网· 2025-09-18 15:48

研究突破 - 公司通过纯强化学习框架显著提升大语言模型推理能力减少对人工标注的依赖[1] - 引入组相对策略优化算法仅依据最终答案正确性给予奖励而非模仿人类推理路径[4] - 模型自然涌现自我反思自我验证及生成长推理链等高级行为单问题推敲可达数百至上千token[4] 性能表现 - 模型在美国数学邀请赛准确率从15.6%跃升至77.9% 采用自洽解码后达86.7% 超越人类平均水平[4] - 在数学解题编程竞赛及STEM领域研究生水平问题上均展现更优表现[1] - 通过多阶段优化后在写作问答等通用任务上展现流畅性和一致性[5] 成本效率 - 推理成本仅29.4万美元基础模型训练开销约600万美元总成本远低于国外巨头[3] - 相比OpenAI训练GPT-4的1亿美元成本实现数量级降低[3] - 突破行业"资金即壁垒"共识展现算法创新对成本结构的颠覆性影响[3][8] 技术路径 - 采用非传统训练方式并非通过复制OpenAI模型推理示例学习[1] - 基础模型基于网络训练会吸收互联网已有AI生成内容[1] - 方法论被《自然》评论为"让AI学会自己思考" 而非"教AI思考"[4][5] 行业影响 - 研究被《自然》杂志收录并登上封面标志中国AI领域重大突破[1] - 被Nature审稿人评价为"开启推理革命" 多机构开始应用该方法论改善现有模型[9] - 推动行业竞争从"数据与算力军备竞赛"转向"算法与智慧创新竞赛"[9] 团队背景 - 创始人梁文锋具浙江大学信息与通信工程硕士背景专注机器视觉与量化交易领域[7] - 曾创办雅克比投资及幻方科技 2023年转向通用人工智能领域[8] - 团队建设坚持"能力为先" 核心岗位由应届生及低年限经验人员构成自主培养人才[8]

Artificial Intelligence

Artificial Intelligence

DeepSeek - R1

DeepSeek登《Nature》封面，梁文锋带队，首次回应“蒸馏”争议

凤凰网· 2025-09-18 14:17

技术突破 - 公司通过纯强化学习框架显著提升大语言模型推理能力减少对人工标注依赖[5] - 引入组相对策略优化算法仅依据最终答案正确与否给予奖励而非模仿人类推理路径[6] - 模型自然涌现自我反思自我验证及生成长推理链条等高级行为在数学测试中生成数百至数千token反复推敲问题[7] 性能表现 - 美国数学邀请赛准确率从15.6%跃升至77.9% 使用自洽解码后达86.7% 超越人类平均水平[7] - 在数学解题编程竞赛及STEM领域研究生水平问题上表现优于传统训练方式[5] - 多阶段优化后不仅在硬核任务表现突出在写作问答等通用任务展现流畅性和一致性[7] 成本优势 - 模型推理成本仅29.4万美元基础模型训练开销约600万美元远低于国外巨头[6] - 相比OpenAI训练GPT-4的1亿美元成本实现数量级降低[6] - 低成本高推理能力突破源于算法创新和团队培养理念[6][9] 行业影响 - 打破资金即壁垒的行业共识将AI发展主动权交还科学创新[10] - 开启全球AI推理革命多国应用该方法论改善现有大语言模型[10] - 推动行业竞争从数据算力军备竞赛转向算法智慧创新竞赛[11] 研发背景 - 创始人梁文锋拥有浙江大学信息与通信工程硕士背景专注机器视觉与量化交易领域[8] - 2013年创办幻方科技 2023年转向通用人工智能领域创立DeepSeek[8] - 核心团队由应届毕业生和年轻人才组成坚持能力为先的自主培养模式[9]

Artificial Intelligence

Artificial Intelligence

DeepSeek-R1

梁文锋发表Nature封面论文：揭开DeepSeek-R1背后的科学原理——强化学习激励大模型推理能力

生物世界· 2025-09-18 09:44

核心观点 - 深度求索公司通过纯强化学习方法训练出DeepSeek-R1推理模型显著降低算力需求并提升复杂任务表现 [1][2][6] - 该模型在数学编程竞赛及STEM领域研究生水平问题中超越传统LLM表现并具备指导小模型推理的能力 [2][17][19] - 训练成本仅294万美元加上基础模型总成本600万美元远低于同类模型数千万美元花费 [2] 技术方法 - 采用纯强化学习框架(GRPO) 无需人类标注推理轨迹仅通过最终答案正确性获得奖励信号 [6][10] - 绕过了监督微调阶段避免人类定义推理模式限制模型探索能力 [10] - 模型自主发展出验证反思和替代方法探索等复杂推理行为 [11] 性能表现 - 在美国数学邀请赛(AIME)测试中pass@1分数从156%提升至779% 自一致性解码后达867% 超越人类参赛者平均水平 [17] - 在编程竞赛及研究生水平生物物理化学问题中表现显著 [19] - 训练过程中出现"顿悟时刻" 模型开始使用"wait"标志发展出自我监控能力 [13] 模型优化 - 通过多阶段训练框架整合拒绝采样强化学习和监督微调解决可读性差和语言混合问题 [23][24] - 在保持推理能力同时通过非推理数据使模型行为与人类偏好对齐 [24] 能力限制 - 结构化输出和工具使用能力不及现有模型无法使用搜索引擎和计算器 [32] - 处理简单问题时存在"过度思考"现象主要优化中英文时可能出现语言混合 [32] - 对提示词敏感少样本提示会降低性能尚未广泛应用于软件工程任务 [32] 行业影响 - 研究表明预训练检查点本身具有解决复杂推理任务的潜力关键因素在于提供困难问题可靠验证器和充足强化学习资源 [29] - 高级推理行为在强化学习过程中有机涌现为开发更自主自适应的大语言模型铺平道路 [29] - 纯强化学习方法有望解决任何可被验证器评估的任务未来可能在复杂推理领域超越人类能力 [29]