Meta的Llama2
搜索文档
DeepSeek首度公开R1模型训练成本仅为29.4万美元,“美国同行开始质疑自己的战略”
新浪财经· 2025-09-19 21:25
核心观点 - DeepSeek-R1模型以极低的训练成本实现了高性能,其训练成本仅为29.4万美元,构建基础大语言模型花费约600万美元,远低于美国同行的成本水平[1][2] - 该成本数据引发美国媒体和行业对中美人工智能竞争格局的重新评估,认为其推翻了只有拥有最先进芯片的国家才能主导AI竞赛的假设[1] - DeepSeek通过开源策略和高效率实现了高端AI的民主化,改变了行业竞争规则,竞争焦点从拥有最多GPU转向用更少资源实现更多目标[6][7] 成本优势 - DeepSeek-R1模型训练使用512块英伟达H800芯片,训练成本29.4万美元,训练时长总计80小时[2][4] - 构建基础大语言模型总成本约600万美元,远低于OpenAI首席执行官透露的远超1亿美元的训练成本[1][2] - 低成本策略得益于使用最大量免费数据进行预训练,并巧妙使用自生成数据进行微调,只在计算上花钱[6] 技术路径 - 模型训练数据来源于网络爬取,包含大量由OpenAI模型生成的回答,可能导致基础模型间接从其他强大模型获得知识[5] - 采用蒸馏技术让庞大复杂的预训练AI模型充当教师训练较小的学生模型,提升性能同时显著降低训练和运行成本[5] - 使用美国科技公司Meta的开源AI模型Llama构建模型的部分精简版本[5] 行业影响 - DeepSeek-R1成为全球首个经过同行评审的主流大语言模型,标志着重要技术里程碑[2] - 该模型在同类产品中脱颖而出,以极低成本实现最先进成果,推动AI技术普及范围扩大[6] - 开源、复制成本相对低廉、高度注重效率的模式将开放理念推向新高度,为其他公司提供可研究模板[6][7] 供应链情况 - DeepSeek在研发前期使用A100芯片为较小模型实验做准备,但R1模型主要使用合法采购的H800芯片集群进行训练[4] - 公司回应了美国官员关于违规获取H100芯片的指控,明确使用的是专为中国市场设计的H800芯片[4] - 尽管面临美国芯片出口管制,仍利用现有芯片资源成功训练出高性能AI模型[4]