大语言模型推理能力提升 - 财报，业绩电话会，研报，新闻 - Reportify

大语言模型推理能力提升

搜索文档

登上《自然》！DeepSeek-R1训练方法发布

科技日报· 2025-09-18 16:39

技术突破 - 开源人工智能模型DeepSeek-R1采用纯强化学习方法提升大语言模型推理能力减少人类输入工作量 [1] - 模型通过解决问题获得奖励强化学习效果使用强化学习而非人类示例开发推理步骤降低训练成本与复杂性 [1] - 在数学基准测试中DeepSeek-R1-Zero和DeepSeek-R1分别达到77.9%和79.8%得分 [1] 性能表现 - 模型在数学编程竞赛及STEM领域研究生水平问题任务上优于传统训练的大语言模型 [1] - 在研究生水平的生物学物理和化学问题上表现优异 [1] 方法创新 - 包含人类监督下的深入训练阶段以优化推理过程 [1] - 通过展示优质问题解决案例后生成推理模板 [1] - 未来研究可聚焦优化奖励过程以确保推理和任务结果更可靠 [1]

Seek .(US:SKLTY)

大语言模型推理能力提升

纯强化学习

Artificial Intelligence

大语言模型推理能力提升

纯强化学习

Artificial Intelligence