学术成就与行业认可 - 公司研究成果登上国际权威期刊《Nature》封面,通讯作者为梁文锋[1] - 该论文是全球首个经过同行评审的主流大语言模型,为行业树立了先例[11] - 同行评审有助于独立评估系统风险,增强研究成果的可信度[11] 技术方法与创新 - 研究核心为仅通过强化学习激发大模型推理能力,开辟了不依赖大量监督数据的新思路[11][13] - 采用群组相对策略优化(GRPO)降低训练成本,并通过设计奖励机制引导模型优化方向[13] - 模型在强化学习中学会推理,通过自我验证和反思提高在编程和研究生水平科学问题上的表现[13] 训练成本与效率 - DeepSeek-R1模型总训练成本为294万美元,折合人民币约200万元[9] - 具体成本构成:DeepSeek-R1-Zero训练202万美元,SFT数据集创建1万美元,DeepSeek-R1训练82万美元[9] - 即便加上训练基础模型DeepSeek-V3所花费的约600万美元,总成本仍远低于竞争对手模型的数千万美元[10] 模型性能与影响 - DeepSeek-R1已成为全球最受欢迎的开源推理模型,在Hugging Face平台下载量超1090万次[11] - 开发团队使用DeepSeek-R1整理的80万个样本对Qwen和Llama等开源模型进行微调,显著增强了小模型的推理能力[13] 数据来源与争议回应 - 公司在论文补充资料中明确表示,基础模型训练数据仅来自普通网页和电子书,不包含任何合成数据[5] - 公司承认网页可能包含大量OpenAI模型生成的答案,导致基础模型间接受益,但已针对数据污染进行处理[7] - 行业专家认为公司关于未使用OpenAI输出训练模型的回应具有说服力,其他实验室的复制尝试支持其方案的有效性[7]
DeepSeek首次回应“蒸馏OpenAI”质疑