总拥有成本（TCO） - 财报，业绩电话会，研报，新闻

总拥有成本（TCO）

搜索文档

傅里叶的猫· 2025-08-20 19:32

GB200/300机架出货预测 - 2025年GB200/300机架出货量从3万上调至3.4万，其中Q3预计出货1.16万，Q4预计出货1.57万 [3] - GB200与GB300机架占比分别为87%和13% [3] - 上调主要受鸿海强劲指引推动，鸿海预计Q3 AI机架出货量环比增长300%，全年出货量预估达1.95万，占市场约57% [3] - 假设200万颗Blackwell芯片库存结转至2026年，下游组装商可能组装超6万机架 [3] - 主要代工厂偏好顺序为鸿海＞纬创＞广达 [3] GB200 NVL72与H100成本对比 - H100服务器价格下降至每台19万美元，超大规模数据中心运营商每台总Capex约25万美元 [12] - GB200 NVL72机架级系统服务器成本约310万美元，超大规模运营商总成本约390万美元每机架 [12] - GB200 NVL72每GPU全包资本成本为H100的1.6-1.7倍 [13] - 超大规模运营商H100每GPU Capex约3.1358万美元，GB200 NVL72为5.4166万美元 [13] - GB200 NVL72每GPU每小时Opex为4.09美元，H100为3.04美元，差异主要源于GB200芯片功耗更高（1200W vs 700W） [14] GB200 NVL72与H100性能比较 - GB200 NVL72总拥有成本（TCO）为H100的1.6倍，需至少比H100快1.6倍才能占据优势 [15] - 截至2025年5月GB200 NVL72性能/TCO尚未超过H100，但7月达到H100的1.5倍，预测未来3-6个月可能达2.7倍 [30] - 2025年7月GB200 NVL72吞吐量在Token/s/GPU方面达H100的2.5倍，12月预测BF16性能比H100好4.7倍，MFU达42.0% [31] - DeepSeek 670B预训练14.8T Token成本在2025年7月为4.5M美元（BF16），预测12月降至2.5M美元 [32] 软件优化与能耗表现 - 2024年1月至12月软件优化使H100 BF16 MFU从34%提升至54%，FP8从29.5%提升至39.5% [20] - FP8训练成本从每百万Token 0.72美元降至0.542美元，300B Token总成本从218k美元降至162k美元 [20] - 训练Llama3 405B模型15T Token能耗相当于3400个美国家庭年能耗 [25] - Llama3 70B模型在2048台H100上训练FP8能耗比64台H100高出10% [29] GB200 NVL72可靠性挑战 - 早期GB200 NVL72运营商普遍面临XID 149错误，背板卡匣连接器金镀层耐用性仅200次插拔 [34] - GB200 NVL72 MTBI为1000-3000 GPU-天，低于H100的2000-5000 GPU-天 [36] - 目前GB200 NVL72仅用于推理、小实验和开发工作，未用于大规模训练 [35] 行业趋势与建议 - SemiAnalysis建议英伟达扩展基准并增加透明度，公开hyperscaler和NCP基准数据 [16] - 建议加速GB200 NVL72诊断工具开发，加强ODM/OEM验收测试 [17] - 软件优化是性能提升关键，GB200 NVL72有潜力但可靠性是瓶颈，预测年底将主导市场 [37]

SemiAnalysis--为什么除了CSP，几乎没人用AMD的GPU？

傅里叶的猫· 2025-05-23 23:46

测试背景与目标 - 研究团队耗时6个月对比AMD与NVIDIA的AI服务器推理性能，验证AMD在总体拥有成本(TCO)下是否优于NVIDIA [2] - 结果显示不同任务类型(聊天、文档处理、推理)下两者性能差异显著：超大规模企业直接运营GPU时，NVIDIA在部分工作负载的perf/$更优，而AMD在另一些场景表现更佳 [2] - 中短期(不足6个月)租赁市场因AMD服务供应商稀缺导致价格高企，NVIDIA凭借超100家Neocloud提供商形成竞争市场，租赁成本优势显著 [2] 硬件性能对比 - MI325X(2025Q2出货)作为H200竞品面临时间劣势，比HGX B200晚一季度出货导致供应商偏好NVIDIA [5] - B200(2025Q1末出货)当前软件未完善，如FP8格式DeepSeek V3在TRT-LLM/vLLM/SGLang上运行不全 [5] - MI355X(2025Q3出货)比B200晚两季度，H200/H100在内存带宽(最高4.8TByte/s)和节点容量(1.152GByte)上弱于MI325X(6TByte/s, 2.048GByte) [6] 基准测试方法 - 采用在线吞吐量与端到端延迟结合的测试方法，模拟真实推理场景 [10] - 模型选择覆盖密集架构(Llama3 70B/405B)和稀疏MoE架构(DeepSeekV3 670B)，输入输出组合涵盖4K/1K(摘要)、1K/1K(翻译)、1K/4K(推理)三类典型场景 [10][11] - 推理引擎选择vLLM(Llama3)、TRT-LLM(H200)、SGLang(DeepSeek)，系统评估所有可行张量并行配置 [12][13] 关键测试结果 Llama3 70B FP16 - 1K/1K场景：低延迟时H100/H200+vLLM领先，高并发下MI325X反超 [15] - 1K/4K场景：H100性能稳定在900 tokens/GPU/s，MI325X在450秒延迟时吞吐量最高 [16] - 4K/1K场景：H200+TRT-LLM从20秒延迟起持续领先，MI325X的TP=1配置高并发表现突出 [16] Llama3 405B FP8 - 1K/1K场景：MI325X持续优于H200+vLLM，H200+TRT-LLM单GPU达1000 tokens/s [17] - 4K/1K场景：MI325X全延迟范围碾压竞品，MI300X在250秒延迟时超越H200+vLLM [19] DeepSeekV3 670B FP8 - 1K/1K场景：H200全延迟级别击败MI300X，MI325X仅在25-35秒延迟区间有竞争力 [20] - 4K/1K场景：H200低延迟优势明显，MI325X在>100秒延迟时性能比H200高20% [25] 总拥有成本(TCO)分析 - AMD硬件成本优势显著：MI300X单位每小时总成本1.34美元(资本占比70.5%)，低于H200的1.63美元(资本占比76.4%) [21] - Llama3 405B场景：MI325X服务成本持续低于H200+vLLM，但H200+TRT-LLM在>60秒延迟后凭借性能优势逆转 [24] - DeepSeekV3场景：MI325X在摘要任务中每美元性能比H200高20-30%，但低延迟场景仍属NVIDIA [25] 市场采用率差异原因 - 租赁市场结构失衡：NVIDIA有超100家Neocloud供应商竞争，AMD仅少数导致租金溢价 [26] - 价格敏感度测算：MI300X需降至1.9美元/小时(1K/1K场景)或2.1-2.4美元/小时(1K/4K场景)才具竞争力，当前实际租金超2.5美元/小时 [30] - 软件生态差距：AMD研发集群投入仅1300万美元(上季度)，远低于7.49亿美元股票回购，ROCm的CI覆盖率不足CUDA的10% [5][12] Blackwell(B200)初步表现 - 在Llama3 70B/405B的1K/4K测试中，B200-TRT全延迟范围碾压MI325X/MI300X，最高请求率下未现性能瓶颈 [28] - 当前软件支持局限：主流框架(vLLM/SGLang)对B200稳定支持不足，TRT-LLM优化仅覆盖少数模型 [27]