Workflow
Data Parallelism(DP)
icon
搜索文档
DeepSeek公布成本、收入和利润率:最高可日赚346万
36氪· 2025-03-03 17:03
开源彩蛋与成本收入 - DeepSeek在开源周第六天公开了DeepSeek-V3/R1推理系统技术细节及每日成本与理论收入数据 [1] - 2月27日24点至2月28日24点的每日总成本为87072美元(约63万元人民币),若按DeepSeek-R1价格计费,理论每日总收入达562027美元(约409万元人民币),成本利润率为545%,理论日净赚474955美元(约346万元人民币) [1][4][11] - 实际收入低于理论值,因DeepSeek-V3定价低于R1、网页端/APP免费服务占比高及非高峰时段夜间折扣影响 [1][12] 技术架构与性能指标 - 采用跨节点专家并行(EP)技术提升吞吐量并降低延迟,通过增大batch size、计算-通信重叠、负载均衡三大策略应对EP系统复杂性 [2][14][15] - 使用H800 GPU并保持与训练一致的精度(矩阵计算FP8、core-attention BF16),高峰时段全节点部署推理服务,夜间缩减节点以分配资源至研究训练 [5] - 24小时内峰值节点占用率达278个(平均226.75节点,每节点含8个H800 GPU),H800租赁成本按每小时2美元计算 [5] 数据处理与吞吐效率 - 统计周期内总输入Token 608B(56.3%命中KVCache缓存),总输出Token 168B,平均输出速度20-22 tps,输出Token平均kvcache长度4989 [7][8] - 单个H800节点在prefill阶段平均吞吐量73.7k token/s(含缓存命中),解码阶段14.8k token/s [9] - 预填充阶段采用双batch重叠掩盖通信开销,解码阶段拆分为5级流水线实现计算-通信重叠 [18][19] 负载均衡优化 - 通过预填充负载均衡器实现各GPU计算量(core-attention)与输入token量(dispatch发送量)均衡,避免单GPU处理时间过长 [23] - 解码负载均衡器优化目标为各GPU的KVCache占用量与请求数量均衡,减少空转等待 [24] - 专家并行负载均衡器针对MoE模型中高负载专家分布不均问题,优化各GPU专家计算量均衡性 [25][26] 市场反响与对比 - GitHub发布1小时内Star数超5600,网友对比OpenAI定价称"被抢劫",突显DeepSeek成本优势 [2][3] - 网友以OpenAI定价模型测算DeepSeek理论收入,强化其高利润率认知 [3][4]