Smallpond - 财报，业绩电话会，研报，新闻

Smallpond

搜索文档

中金 | AI智道（7）：DeepSeek Infra开源周总结，及算力测算一览

中金点睛· 2025-03-17 07:55

文章核心观点 - 2025年2月24 - 28日DeepSeek进行Infra开源周，其Infra工程优化能力国内领先，通过五大Infra核心技术构建大模型 - 算力全栈协同体系，实现大模型开发成本大幅压缩；成本及算力测算显示其毛利率水平国内领先；Infra优化能力推动大模型平权，对推理算力需求有积极影响，AI应用商业化更取决于模型能力和工程优化 [2][3] DeepSeek开源周：Infra层优化能力行业领先全栈协同体系 - DeepSeek开源周深度适配GPU特性，通过五大Infra核心技术构建大模型 - 算力全栈协同体系，以“单卡算力提升 - 核心计算加速 - 通信延迟降低 - 多卡协作优化 - 数据流高速供给”为脉络形成优化闭环，提升千亿参数模型训练、推理效率，压缩开发成本 [2][6] 每日成果 - **Day1**：发布为英伟达Hopper GPU设计的MLA解码内核FlashMLA，实现MoE模型推理加速，针对变长序列处理等场景优化，核心创新含分页KV缓存、分块调度与内存优化、原生稀疏注意力，实测在H800 SXM5平台有顶尖性能表现 [8] - **Day2**：发布DeepEP，为MoE模型和专家并行设计的专用通信库，支持FP8低精度通信，有高效优化的all - to - all通信、支持NVLink和RDMA技术等特点，实现训练和推理高吞吐、低延迟 [9] - **Day3**：发布DeepGEMM，针对FP8通用矩阵乘法打造，支持密集GEMM和MoE GEMM，采用CUDA核心两级累加机制，核心优化包括线程束优化、利用Hopper TMA特点、特殊优化等，在H800上最高可实现2.7倍加速 [10] - **Day4**：开源DualPipe、EPLB和Profile - data。DualPipe是双向流水线并行算法，通过重叠计算与通信阶段提升训练性能；EPLB是专家并行负载均衡器，用冗余专家策略和组限制专家路由解决负载不均衡问题；Profile - data展示通信计算重叠策略和低级实现细节 [13][14][16] - **Day5**：开源3FS和Smallpond。3FS是高性能分布式文件系统，利用SSD和RDMA网络，在性能、可用性和多样化工作负载方面有优势；Smallpond是基于DuckDB和3FS的轻量级数据处理框架，具备高性能、易操作、可扩展特点 [21][22] DeepSeek成本及算力测算：毛利率水平领先成本与毛利率测算 - DeepSeek 3月1日公开模型推理效率和成本，过去24小时DeepSeek V3和R1推理服务峰值占用278个节点，平均占用226.75个节点，处理608B输入Token和168B输出Token，总体GPU hours成本8.7万美元；以模型API定价测算收入、GPU hours租赁成本为核心成本项，综合毛利率在71 - 84.5%，处于行业领先水平 [24] 利润率对比 - 理想情况计算的DeepSeek毛利率较高，但实际因部分Token不收费，整体毛利率会降低；海外OpenAI和Anthropic API服务按仅扣GPU Hours口径计算毛利率也领先；其他云厂商为保证稳定性提供冗余算力，集群负载率难达DeepSeek水平，底层优化不足，会损失部分毛利率 [25] 对产业影响 - 推理算力方面，AI infra进步提升算力利用效率，推动行业繁荣，多模态、Manus等Agent应用会激发更大推理算力需求；AI应用方面，模型推理成本降低，商业化更取决于模型能力迭代和合适场景打磨，2C看好互联网大厂产品化进展，2B关注企业服务厂商客户场景磨合，期待2025年出现更多“爆款”AI应用 [26]

Artificial Intelligence

大模型平权

Artificial Intelligence

EPLB

3FS

Smallpond

Artificial Intelligence

大模型平权

Artificial Intelligence

EPLB

3FS

Smallpond

DeepSeek披露，一天成本利润率为545%

华尔街见闻· 2025-03-01 19:17

成本利润率披露 - 公司首次披露成本利润率关键信息假定GPU租赁成本为2美元/小时日总成本为87072美元若所有tokens按DeepSeek-R1定价计算理论日收入达562027美元成本利润率为545% [1][3] - 实际收入低于理论值因V3定价更低且存在夜间折扣收费服务仅占部分负载 [4] 资源利用与定价策略 - 最近24小时节点占用峰值278个平均22675个定价策略为014美元/百万输入tokens（缓存命中） 055美元/百万输入tokens（缓存未命中） 219美元/百万输出tokens [3] - 采用弹性资源调度白天全节点部署推理夜间释放节点用于训练/研究优化目标为提升吞吐量与降低延迟 [4][5] - 公司强调定价原则为"不贴钱也不赚暴利" 在成本基础上保持适度利润此前员工透露API服务利润率超50% [5] 行业争议与回应 - 潞晨科技创始人尤洋曾称DeepSeek API业务月亏4亿元主要因测试速度与实际场景差距机器利用率波动及不稳定性 [2][5] - 公司通过公开资源利用数据间接回应质疑证明弹性伸缩可避免资源空置 [5] - 业内人士认为在线推理领域需持续吸引用户并保持技术领先才能盈利商务付费能力与应用场景同样关键 [6] 开源周技术成果 - 公司结束为期5天的开源周累计开源5个代码库包括FlashMLA（Hopper GPU优化解码内核） DeepEP（MoE模型训练推理通信库） DeepGEMM（支持密集与MoE布局的即时编译库） Optimized Parallelism Strategies（大规模训练效率优化）及Fire-Flyer文件系统（3FS）与Smallpond数据处理框架 [7][8][9][10][11] - 开源技术被评价为从"运营驱动"转向"价值驱动" 推动智能未来创新 [12] 用户规模与行业影响 - DeepSeek App累计下载量超11亿次周活跃用户峰值近9700万 [12] - 开源生态发展被视为中国技术创新的关键力量公司实践展示开源硬件对技术自由的促进作用 [12]

开源技术

成本利润率

Artificial Intelligence

Artificial Intelligence

DeepSeek-R1

DeepSeek-V3

FlashMLA