Workflow
“训练成本才这么点?美国同行陷入自我怀疑”
观察者网·2025-09-19 19:28

文章核心观点 - DeepSeek以远低于美国同行的成本实现了高性能AI模型训练 其训练成本仅为29.4万美元 基础大语言模型构建成本约600万美元 显著低于OpenAI超过1亿美元的训练成本[1][2] - 公司通过开源策略和高效计算资源使用 推动高端AI技术民主化 改变了行业竞争规则[6][7] - 公司首次在同行评审论文中披露技术细节 回应了美国对其芯片获取及技术复制的不实指控[4][5] 成本与效率突破 - DeepSeek-R1模型训练仅使用512块英伟达H800芯片 成本为29.4万美元[2] - 基础大语言模型构建总成本约600万美元 远低于美国公司公开披露的数字[1] - 采用网络爬取数据与自生成数据结合的节俭策略 仅聚焦计算投入 实现成本优化[6] 技术方法与行业影响 - 使用蒸馏技术提升模型性能并降低计算成本 通过Meta开源模型Llama构建部分精简版本[5] - 训练数据包含OpenAI模型生成内容 但属网络爬取过程中的无意结果 非刻意复制[5] - 模型实现顶级性能与高度效率 推动AI竞争从GPU数量导向转向资源效率导向[6][7] 芯片使用与合规性 - 研发前期使用A100芯片进行小模型实验 R1模型训练全程采用合法采购的H800芯片集群[4] - 在512块H800芯片上进行80小时训练 直接回应美国关于违规使用H100芯片的指控[4] 行业地位与认可 - 成为全球首个经过同行评审的主流大语言模型 获《自然》杂志刊登[2] - Hugging Face专家确认其方法可被第三方复现 无需依赖OpenAI秘密数据[6] - 被评价为"推翻仅靠先进芯片主导AI竞赛"的假设 实现"高端AI民主化"[1][6]