Workflow
总拥有成本(TCO)
icon
搜索文档
SemiAnalysis的TPU报告解析--谷歌产业链信息更新
傅里叶的猫· 2025-12-01 12:29
SemiAnalysis的这个报告已经出来两天,但周末一直比较忙,只能拖到今天才来写了。这篇TPU分析报告引起的 争议是不小的,下面我们结合报告内容,再加上自己的分析,来看下这个报告的内容,后面还会给出国内谷歌 的链的更新情况。 首先说一下国内外的一个通病,就是拉一踩一,最近谷歌链火了,在提谷歌的时候就非要踩一下英伟达。这是 完全没有必要的,英伟达现在依然是绝对的老大,CUDA依然是很强的护城河。 TPU的技术表现已明确引发竞争对手的高度关注,奥特曼公开表示,由于谷歌Gemini模型的强势表现抢占了行业 焦点,OpenAI正面临阶段性挑战。英伟达也发布公关声明以稳定市场预期,强调其在该领域仍保持领先优势。 近几个月来,谷歌DeepMind、谷歌云(GCP)与TPU形成的技术生态协同效应显著,实现了多项关键进展: TPU产能规划大幅上调,Anthropic宣布部署规模超1GW的TPU计算集群,Gemini 3、Opus 4.5等具备业界领先水 平的模型均基于TPU完成训练,且Meta、SSI、xAI、OpenAI等头部机构已陆续加入TPU采购队列,客户清单持 续扩容。 与此同时,以英伟达GPU为核心的供应链则面 ...
CUDA被撕开第一道口子,谷歌TPUv7干翻英伟达
36氪· 2025-12-01 10:55
当谷歌不再只满足于「TPU自己用」,TPU摇身一变成了英伟达王座下最锋利的一把刀!CUDA护城河还能守住吗?读完这篇SemiAnalysis的 分析,你或许会第一次从「算力账本」的视角,看懂谷歌暗藏的杀招。 谷歌Gemini 3的成功,让其背后的TPU再次成为全世界关注的焦点。 资本市场给出了明确的反应,谷歌股价的上涨,也让一个话题再次被拿到牌桌上讨论: 谷歌TPU是不是真的能和英伟达GPU掰一掰手腕? 尤其是TPUv7更是人们讨论关注的焦点,这款专门为AI设计的芯片是否能够打破英伟达多年来的GPU形成的垄断? 众所周知,SemiAnalysis是一家在科技界,尤其是半导体和人工智能领域极具影响力的精品研究与咨询公司。 它以硬核、深度的数据分析著称,不同于泛泛而谈的科技媒体,它更像是一个服务于华尔街投资者、芯片巨头和AI从业者的「行业智库」。 刚刚,他们最新的文章给出一个明确的结论:TPUv7首次向英伟达发起了冲锋。 而且这一篇文章由12位作者共同撰写,可见分量之重。 TPUv7:谷歌向王者发起挑战 英伟达坚不可摧的堡垒,出现了一丝裂痕。 目前,世界上最顶尖的两个模型——Anthropic的Claude 4. ...
SemiAnalysis深度解读TPU--谷歌冲击“英伟达帝国”
硬AI· 2025-11-29 23:20
市场格局转变 - 2025年AI芯片市场处于微妙转折点,英伟达凭借Blackwell架构维持技术和市场份额的绝对领先,但谷歌TPU的全面商业化正对其定价权构成挑战[1][2] - OpenAI仅凭“威胁购买TPU”这一筹码,就迫使英伟达生态链做出实质性让步,使其计算集群的总拥有成本(TCO)下降约30%[2] - 谷歌正式从“云服务商”转型为直接向外部出售高性能芯片与系统的“商用芯片供应商”,Anthropic高达1GW的TPU采购细节曝光标志着这一战略转变[3] - 当谷歌愿意开放软件生态并提供金融杠杆时,英伟达高达75%的毛利率神话便不再牢不可破[3][7] 重大交易与商业模式创新 - Anthropic确认将部署超过100万颗TPU,此交易采用“混合销售”新模式,首批约40万颗最新的TPUv7 "Ironwood"由博通直接出售给Anthropic,价值约100亿美元[8] - 剩余60万颗TPUv7通过谷歌云进行租赁,估计这部分交易涉及高达420亿美元的剩余履约义务(RPO),直接支撑了谷歌云近期积压订单的暴涨[9] - 谷歌通过“资产负债表外”的信贷支持(IOU)解决AI基础设施建设的期限错配问题,承诺如果中间商无法支付租金,谷歌将介入兜底[16] - 这一金融工具打通了加密货币矿工与AI算力需求之间的堵点,构建了独立于英伟达体系的低成本基础设施生态[17] 技术优势与成本竞争力 - 谷歌TPUv7在成本效率上对英伟达构成碾压优势,从谷歌内部视角看,TPUv7服务器的TCO比英伟达GB200服务器低约44%[13] - 即便加上谷歌和博通的利润,Anthropic通过GCP使用TPU的TCO,仍比购买GB200低约30%[13] - 谷歌通过极致的系统设计弥补单芯片理论算力的不足,TPUv7采用更务实的设计哲学,通过更高的模型算力利用率(MFU)来提升实际产出[20] - 谷歌独步天下的光互连(ICI)技术利用自研的光路交换机(OCS)和3D Torus拓扑结构,允许单个TPUv7集群扩展至惊人的9,216颗芯片,远超英伟达常见的64或72卡集群[23][24] 软件生态战略调整 - 谷歌软件团队的KPI已发生重大调整,从“服务内部”转向“拥抱开源”,全力支持PyTorch Native在TPU上的运行[30][31] - 谷歌不再依赖低效的Lazy Tensor转换,而是通过XLA编译器直接对接PyTorch的Eager Execution模式,使Meta等客户可几乎无缝迁移代码到TPU[33] - 谷歌开始向vLLM和SGLang等开源推理框架大量贡献代码,打通了TPU在开源推理生态中的任督二脉[34] - 这一转变意味着英伟达最坚固的“CUDA护城河”,正在被谷歌用“兼容性”填平[36] 行业影响与竞争态势 - 除了Anthropic,Meta、SSI、xAI等顶级AI实验室也出现在了谷歌TPU的潜在客户名单中[10] - 面对谷歌的攻势,英伟达罕见地展现出防御姿态,其财务团队近期针对“循环经济”的质疑发布长文辩解,显示谷歌的攻势已触及英伟达的神经[10] - Gemini 3和Claude 4.5 Opus这两大全球最强模型均完全在TPU上完成预训练,这为TPU系统处理最高难度任务的能力提供了终极背书[26] - 谷歌在外部客户定价上需要“穿针引线”,但对Anthropic等旗舰客户仍能提供有竞争力的价格,同时保持比商品化GPU交易更优越的息税前利润率[92][93]
GB200出货量上修,但NVL72目前尚未大规模训练
傅里叶的猫· 2025-08-20 19:32
GB200/300机架出货预测 - 2025年GB200/300机架出货量从3万上调至3.4万,其中Q3预计出货1.16万,Q4预计出货1.57万 [3] - GB200与GB300机架占比分别为87%和13% [3] - 上调主要受鸿海强劲指引推动,鸿海预计Q3 AI机架出货量环比增长300%,全年出货量预估达1.95万,占市场约57% [3] - 假设200万颗Blackwell芯片库存结转至2026年,下游组装商可能组装超6万机架 [3] - 主要代工厂偏好顺序为鸿海>纬创>广达 [3] GB200 NVL72与H100成本对比 - H100服务器价格下降至每台19万美元,超大规模数据中心运营商每台总Capex约25万美元 [12] - GB200 NVL72机架级系统服务器成本约310万美元,超大规模运营商总成本约390万美元每机架 [12] - GB200 NVL72每GPU全包资本成本为H100的1.6-1.7倍 [13] - 超大规模运营商H100每GPU Capex约3.1358万美元,GB200 NVL72为5.4166万美元 [13] - GB200 NVL72每GPU每小时Opex为4.09美元,H100为3.04美元,差异主要源于GB200芯片功耗更高(1200W vs 700W) [14] GB200 NVL72与H100性能比较 - GB200 NVL72总拥有成本(TCO)为H100的1.6倍,需至少比H100快1.6倍才能占据优势 [15] - 截至2025年5月GB200 NVL72性能/TCO尚未超过H100,但7月达到H100的1.5倍,预测未来3-6个月可能达2.7倍 [30] - 2025年7月GB200 NVL72吞吐量在Token/s/GPU方面达H100的2.5倍,12月预测BF16性能比H100好4.7倍,MFU达42.0% [31] - DeepSeek 670B预训练14.8T Token成本在2025年7月为4.5M美元(BF16),预测12月降至2.5M美元 [32] 软件优化与能耗表现 - 2024年1月至12月软件优化使H100 BF16 MFU从34%提升至54%,FP8从29.5%提升至39.5% [20] - FP8训练成本从每百万Token 0.72美元降至0.542美元,300B Token总成本从218k美元降至162k美元 [20] - 训练Llama3 405B模型15T Token能耗相当于3400个美国家庭年能耗 [25] - Llama3 70B模型在2048台H100上训练FP8能耗比64台H100高出10% [29] GB200 NVL72可靠性挑战 - 早期GB200 NVL72运营商普遍面临XID 149错误,背板卡匣连接器金镀层耐用性仅200次插拔 [34] - GB200 NVL72 MTBI为1000-3000 GPU-天,低于H100的2000-5000 GPU-天 [36] - 目前GB200 NVL72仅用于推理、小实验和开发工作,未用于大规模训练 [35] 行业趋势与建议 - SemiAnalysis建议英伟达扩展基准并增加透明度,公开hyperscaler和NCP基准数据 [16] - 建议加速GB200 NVL72诊断工具开发,加强ODM/OEM验收测试 [17] - 软件优化是性能提升关键,GB200 NVL72有潜力但可靠性是瓶颈,预测年底将主导市场 [37]
SemiAnalysis--为什么除了CSP,几乎没人用AMD的GPU?
傅里叶的猫· 2025-05-23 23:46
测试背景与目标 - 研究团队耗时6个月对比AMD与NVIDIA的AI服务器推理性能,验证AMD在总体拥有成本(TCO)下是否优于NVIDIA [2] - 结果显示不同任务类型(聊天、文档处理、推理)下两者性能差异显著:超大规模企业直接运营GPU时,NVIDIA在部分工作负载的perf/$更优,而AMD在另一些场景表现更佳 [2] - 中短期(不足6个月)租赁市场因AMD服务供应商稀缺导致价格高企,NVIDIA凭借超100家Neocloud提供商形成竞争市场,租赁成本优势显著 [2] 硬件性能对比 - MI325X(2025Q2出货)作为H200竞品面临时间劣势,比HGX B200晚一季度出货导致供应商偏好NVIDIA [5] - B200(2025Q1末出货)当前软件未完善,如FP8格式DeepSeek V3在TRT-LLM/vLLM/SGLang上运行不全 [5] - MI355X(2025Q3出货)比B200晚两季度,H200/H100在内存带宽(最高4.8TByte/s)和节点容量(1.152GByte)上弱于MI325X(6TByte/s, 2.048GByte) [6] 基准测试方法 - 采用在线吞吐量与端到端延迟结合的测试方法,模拟真实推理场景 [10] - 模型选择覆盖密集架构(Llama3 70B/405B)和稀疏MoE架构(DeepSeekV3 670B),输入输出组合涵盖4K/1K(摘要)、1K/1K(翻译)、1K/4K(推理)三类典型场景 [10][11] - 推理引擎选择vLLM(Llama3)、TRT-LLM(H200)、SGLang(DeepSeek),系统评估所有可行张量并行配置 [12][13] 关键测试结果 Llama3 70B FP16 - 1K/1K场景:低延迟时H100/H200+vLLM领先,高并发下MI325X反超 [15] - 1K/4K场景:H100性能稳定在900 tokens/GPU/s,MI325X在450秒延迟时吞吐量最高 [16] - 4K/1K场景:H200+TRT-LLM从20秒延迟起持续领先,MI325X的TP=1配置高并发表现突出 [16] Llama3 405B FP8 - 1K/1K场景:MI325X持续优于H200+vLLM,H200+TRT-LLM单GPU达1000 tokens/s [17] - 4K/1K场景:MI325X全延迟范围碾压竞品,MI300X在250秒延迟时超越H200+vLLM [19] DeepSeekV3 670B FP8 - 1K/1K场景:H200全延迟级别击败MI300X,MI325X仅在25-35秒延迟区间有竞争力 [20] - 4K/1K场景:H200低延迟优势明显,MI325X在>100秒延迟时性能比H200高20% [25] 总拥有成本(TCO)分析 - AMD硬件成本优势显著:MI300X单位每小时总成本1.34美元(资本占比70.5%),低于H200的1.63美元(资本占比76.4%) [21] - Llama3 405B场景:MI325X服务成本持续低于H200+vLLM,但H200+TRT-LLM在>60秒延迟后凭借性能优势逆转 [24] - DeepSeekV3场景:MI325X在摘要任务中每美元性能比H200高20-30%,但低延迟场景仍属NVIDIA [25] 市场采用率差异原因 - 租赁市场结构失衡:NVIDIA有超100家Neocloud供应商竞争,AMD仅少数导致租金溢价 [26] - 价格敏感度测算:MI300X需降至1.9美元/小时(1K/1K场景)或2.1-2.4美元/小时(1K/4K场景)才具竞争力,当前实际租金超2.5美元/小时 [30] - 软件生态差距:AMD研发集群投入仅1300万美元(上季度),远低于7.49亿美元股票回购,ROCm的CI覆盖率不足CUDA的10% [5][12] Blackwell(B200)初步表现 - 在Llama3 70B/405B的1K/4K测试中,B200-TRT全延迟范围碾压MI325X/MI300X,最高请求率下未现性能瓶颈 [28] - 当前软件支持局限:主流框架(vLLM/SGLang)对B200稳定支持不足,TRT-LLM优化仅覆盖少数模型 [27]