学术成就与行业认可 - DeepSeek-R1推理模型研究论文登上国际权威期刊《Nature》封面,标志着中国大模型研究首次获此殊荣,也是全球首个经过完整同行评审并发表于权威期刊的主流大语言模型研究[1] - 《Nature》社论评价指出,几乎所有主流大模型都未经过独立同行评审,这一空白被DeepSeek打破[1][2] - 论文历经半年评审周期,8位外部专家参与同行评审,从预印本到正式发表于《Nature》封面,完成了“学术跃迁”[2] 技术方法与透明度 - 研究成果首次公开了仅靠强化学习就能激发大模型推理能力的方法[1] - 论文全文64页,首次披露了R1的训练成本,并对数据来源、训练方法、安全性等审稿人质询作出详细回应[2] - 针对外界“蒸馏”质疑,公司澄清其训练数据全部来自互联网,虽可能包含GPT-4生成结果,但非有意为之,更没有专门的蒸馏环节[3] 训练成本与效率 - R1模型使用512张H800 GPU训练80个小时,以每GPU小时2美元的租赁价格计算,总训练成本为29.4万美元(约合人民币209万元)[3] - 与其他推理模型动辄上千万美元的花费相比,该成本实现了极大降本[3] 模型演进与未来规划 - 自年初发布R1后,公司于8月21日发布DeepSeek-V3.1,称为“迈向Agent时代的第一步”[4] - V3.1采用混合推理架构,同时支持思考与非思考模式,具有更高思考效率和更强智能体能力[4] - V3.1使用UE8M0 FP8 Scale参数精度,该精度是针对下一代国产芯片设计,表明未来基于DeepSeek模型的训练与推理有望更多应用国产AI芯片[4][5] 行业影响与技术趋势 - 公司从V3版本就开始采用FP8参数精度验证训练有效性,通过降低算力精度,使国产ASIC芯片能在成熟制程(12-28nm)上接近先进制程英伟达GPU的算力精度[5] - “软硬协同”的生态技术壁垒逐渐成为AI浪潮下新范式,未来国产大模型将更多拥抱FP8算力精度并有望成为一种新技术趋势[5] - 这一技术方向带动国产芯片算力股股价飙升,助力国产算力生态加速建设[5]
DeepSeek,打破历史!中国AI的“Nature时刻”