Workflow
DeepSeek对算力影响解读
SKLTYSeek .(SKLTY)2025-03-04 15:01

纪要涉及的行业或者公司 涉及行业为大模型、算力、芯片等相关行业 涉及公司有DeepSeek、DPC、DMC、金信诺、英伟达、阿里、字节跳动、腾讯、百度、谷歌等 纪要提到的核心观点和论据 - DeepSeek技术优势:通过模型并行、Deep EP技术和new pipe技术,显著提升机器推理吞吐量至少5倍并降低延时30%-50%,new pipe技术比标准NCCL通讯库效率高20%-40%,延时减少15%-30%;全球节点资源调度出色,通过昼夜切换提高资源利用率40%,降低综合成本35%,KD cache缓存机制命中率高达56.3%;采用256个专家的多专家架构,计算性能效率比其他厂商高8到10倍[2][5][6] - DPC相关问题:DPC V3推理系统框架采用大规模节点的专家并行策略等技术提升推理吞吐量和降低延时;声称用不到2000张卡支撑2400万日活用户,但实际回答率仅20%,且B端和C端混合统计影响负载评估;公布85%的毛利率过于乐观,未充分考虑H800租金等成本,行业标准毛利率应为60%-80%[2][3][7] - 算力需求与成本:实现2000万日活用户大约需要8万张A100级别的GPU卡来支撑1万亿token,2025年头部互联网公司token消耗量将达10万亿,需要60至80万张GPU卡支撑业务增长;模型运营成本中芯片折旧费约占60%,带宽、电费和人力费约占40%,通过提升GPU使用率等能降低推理成本,预计未来一两个月大厂利润率逐步提高[4][10] - C端与B端差异:B端场景碎片化且多元化,token消耗远大于C端,有明显潮汐效应,模型更新频率低,常采用混合云方式;C端全球用户分布均匀,24小时相对稳定,模型更新频率高,主要依赖公有云[12] - 大模型落地与发展:缓存机制、跨节点并行运算、FP8精度计算等技术使大模型吞吐量远超NVIDIA参考值;随着用户量增加,大模型可能形成市场壁垒,头部玩家更难被超越[15][16] - 商业化负载率与算力储备:To B业务负载率通常在40% - 60%,本地化部署约40%;C端业务负载率可达70%,仅限国内用户约60%;业内通常预留30%左右buffer应对突发情况,GPU时代提高到35% - 40%,大客户buffer通常超35%甚至达40%[17][18][19] - 模型市场竞争:文本模型市场趋于收敛,单一模型积累大量用户困难;多模态赛道刚刚起步,有更多机会,具备强大研发能力和资源的大厂更有机会脱颖而出[22][23] - 技术移植与优化:将DeepSeek技术移植到国产显卡难度较大,预计需2 - 3个月,头部国产芯片厂商将在2 - 6个月内逐步完成技术复刻;复制现有方案预计能达到60%效果,视频领域通信网络优化部分仍可应用[20][21][29] - 多模态技术需求:多模态技术2025年进入商用阶段,训练侧和推理侧对算力需求远超文本模型,大厂需优化性能效率和降低成本迎接爆发[35] 其他重要但是可能被忽略的内容 - 吞吐量与解码性能:DMC公布数据显示其吞吐量可达73.7,解码性能为14.8,基于H100 GPU测试,表明Deep Sig在这方面有显著优势[13] - 特定时间段峰值需求算力储备:业内通常预留30%左右buffer,GPU时代提高到35% - 40%,大客户buffer通常超35%甚至达40%[19][20] - 海外市场反应:海外大厂对新技术反应淡定,倾向参考英伟达标准方法,不过度榨干GPU算力,因卡片资源充足且考虑故障率[34] - GPT吞吐率:GPT日活跃用户已过亿,依靠10万台H700机型支撑,每天消耗token至少五六万亿[36] - 用户请求情况:用户请求次数APP端日均8 - 10次,web端约12次,总体平均11次左右,单次请求消耗约2500个token,每天每人消耗25000 - 30000个token,输入量与输出量比例约为3比1[37][38] - 国内大厂自研ASIC:海外谷歌等已投入使用自研ASIC,国内百度昆仑芯片、阿里平头哥等在进行自研,目前国内大厂自研ASIC使用比例10% - 15%,大部分仍依赖外部供应[39]