弱缩放 - 财报，业绩电话会，研报，新闻

弱缩放

搜索文档

傅里叶的猫· 2025-08-20 19:32

GB200/300机架出货预测 - 2025年GB200/300机架出货量从3万上调至3.4万，其中Q3预计出货1.16万，Q4预计出货1.57万 [3] - GB200与GB300机架占比分别为87%和13% [3] - 上调主要受鸿海强劲指引推动，鸿海预计Q3 AI机架出货量环比增长300%，全年出货量预估达1.95万，占市场约57% [3] - 假设200万颗Blackwell芯片库存结转至2026年，下游组装商可能组装超6万机架 [3] - 主要代工厂偏好顺序为鸿海＞纬创＞广达 [3] GB200 NVL72与H100成本对比 - H100服务器价格下降至每台19万美元，超大规模数据中心运营商每台总Capex约25万美元 [12] - GB200 NVL72机架级系统服务器成本约310万美元，超大规模运营商总成本约390万美元每机架 [12] - GB200 NVL72每GPU全包资本成本为H100的1.6-1.7倍 [13] - 超大规模运营商H100每GPU Capex约3.1358万美元，GB200 NVL72为5.4166万美元 [13] - GB200 NVL72每GPU每小时Opex为4.09美元，H100为3.04美元，差异主要源于GB200芯片功耗更高（1200W vs 700W） [14] GB200 NVL72与H100性能比较 - GB200 NVL72总拥有成本（TCO）为H100的1.6倍，需至少比H100快1.6倍才能占据优势 [15] - 截至2025年5月GB200 NVL72性能/TCO尚未超过H100，但7月达到H100的1.5倍，预测未来3-6个月可能达2.7倍 [30] - 2025年7月GB200 NVL72吞吐量在Token/s/GPU方面达H100的2.5倍，12月预测BF16性能比H100好4.7倍，MFU达42.0% [31] - DeepSeek 670B预训练14.8T Token成本在2025年7月为4.5M美元（BF16），预测12月降至2.5M美元 [32] 软件优化与能耗表现 - 2024年1月至12月软件优化使H100 BF16 MFU从34%提升至54%，FP8从29.5%提升至39.5% [20] - FP8训练成本从每百万Token 0.72美元降至0.542美元，300B Token总成本从218k美元降至162k美元 [20] - 训练Llama3 405B模型15T Token能耗相当于3400个美国家庭年能耗 [25] - Llama3 70B模型在2048台H100上训练FP8能耗比64台H100高出10% [29] GB200 NVL72可靠性挑战 - 早期GB200 NVL72运营商普遍面临XID 149错误，背板卡匣连接器金镀层耐用性仅200次插拔 [34] - GB200 NVL72 MTBI为1000-3000 GPU-天，低于H100的2000-5000 GPU-天 [36] - 目前GB200 NVL72仅用于推理、小实验和开发工作，未用于大规模训练 [35] 行业趋势与建议 - SemiAnalysis建议英伟达扩展基准并增加透明度，公开hyperscaler和NCP基准数据 [16] - 建议加速GB200 NVL72诊断工具开发，加强ODM/OEM验收测试 [17] - 软件优化是性能提升关键，GB200 NVL72有潜力但可靠性是瓶颈，预测年底将主导市场 [37]