Workflow
大语言模型推理能力提升
icon
搜索文档
登上《自然》!DeepSeek-R1训练方法发布
科技日报· 2025-09-18 16:39
技术突破 - 开源人工智能模型DeepSeek-R1采用纯强化学习方法提升大语言模型推理能力 减少人类输入工作量 [1] - 模型通过解决问题获得奖励强化学习效果 使用强化学习而非人类示例开发推理步骤 降低训练成本与复杂性 [1] - 在数学基准测试中DeepSeek-R1-Zero和DeepSeek-R1分别达到77.9%和79.8%得分 [1] 性能表现 - 模型在数学 编程竞赛及STEM领域研究生水平问题任务上优于传统训练的大语言模型 [1] - 在研究生水平的生物学 物理和化学问题上表现优异 [1] 方法创新 - 包含人类监督下的深入训练阶段以优化推理过程 [1] - 通过展示优质问题解决案例后生成推理模板 [1] - 未来研究可聚焦优化奖励过程以确保推理和任务结果更可靠 [1]