Workflow
SemiAnalysis--为什么除了CSP,几乎没人用AMD的GPU?
傅里叶的猫·2025-05-23 23:46

测试背景与目标 - 研究团队耗时6个月对比AMD与NVIDIA的AI服务器推理性能,验证AMD在总体拥有成本(TCO)下是否优于NVIDIA [2] - 结果显示不同任务类型(聊天、文档处理、推理)下两者性能差异显著:超大规模企业直接运营GPU时,NVIDIA在部分工作负载的perf/$更优,而AMD在另一些场景表现更佳 [2] - 中短期(不足6个月)租赁市场因AMD服务供应商稀缺导致价格高企,NVIDIA凭借超100家Neocloud提供商形成竞争市场,租赁成本优势显著 [2] 硬件性能对比 - MI325X(2025Q2出货)作为H200竞品面临时间劣势,比HGX B200晚一季度出货导致供应商偏好NVIDIA [5] - B200(2025Q1末出货)当前软件未完善,如FP8格式DeepSeek V3在TRT-LLM/vLLM/SGLang上运行不全 [5] - MI355X(2025Q3出货)比B200晚两季度,H200/H100在内存带宽(最高4.8TByte/s)和节点容量(1.152GByte)上弱于MI325X(6TByte/s, 2.048GByte) [6] 基准测试方法 - 采用在线吞吐量与端到端延迟结合的测试方法,模拟真实推理场景 [10] - 模型选择覆盖密集架构(Llama3 70B/405B)和稀疏MoE架构(DeepSeekV3 670B),输入输出组合涵盖4K/1K(摘要)、1K/1K(翻译)、1K/4K(推理)三类典型场景 [10][11] - 推理引擎选择vLLM(Llama3)、TRT-LLM(H200)、SGLang(DeepSeek),系统评估所有可行张量并行配置 [12][13] 关键测试结果 Llama3 70B FP16 - 1K/1K场景:低延迟时H100/H200+vLLM领先,高并发下MI325X反超 [15] - 1K/4K场景:H100性能稳定在900 tokens/GPU/s,MI325X在450秒延迟时吞吐量最高 [16] - 4K/1K场景:H200+TRT-LLM从20秒延迟起持续领先,MI325X的TP=1配置高并发表现突出 [16] Llama3 405B FP8 - 1K/1K场景:MI325X持续优于H200+vLLM,H200+TRT-LLM单GPU达1000 tokens/s [17] - 4K/1K场景:MI325X全延迟范围碾压竞品,MI300X在250秒延迟时超越H200+vLLM [19] DeepSeekV3 670B FP8 - 1K/1K场景:H200全延迟级别击败MI300X,MI325X仅在25-35秒延迟区间有竞争力 [20] - 4K/1K场景:H200低延迟优势明显,MI325X在>100秒延迟时性能比H200高20% [25] 总拥有成本(TCO)分析 - AMD硬件成本优势显著:MI300X单位每小时总成本1.34美元(资本占比70.5%),低于H200的1.63美元(资本占比76.4%) [21] - Llama3 405B场景:MI325X服务成本持续低于H200+vLLM,但H200+TRT-LLM在>60秒延迟后凭借性能优势逆转 [24] - DeepSeekV3场景:MI325X在摘要任务中每美元性能比H200高20-30%,但低延迟场景仍属NVIDIA [25] 市场采用率差异原因 - 租赁市场结构失衡:NVIDIA有超100家Neocloud供应商竞争,AMD仅少数导致租金溢价 [26] - 价格敏感度测算:MI300X需降至1.9美元/小时(1K/1K场景)或2.1-2.4美元/小时(1K/4K场景)才具竞争力,当前实际租金超2.5美元/小时 [30] - 软件生态差距:AMD研发集群投入仅1300万美元(上季度),远低于7.49亿美元股票回购,ROCm的CI覆盖率不足CUDA的10% [5][12] Blackwell(B200)初步表现 - 在Llama3 70B/405B的1K/4K测试中,B200-TRT全延迟范围碾压MI325X/MI300X,最高请求率下未现性能瓶颈 [28] - 当前软件支持局限:主流框架(vLLM/SGLang)对B200稳定支持不足,TRT-LLM优化仅覆盖少数模型 [27]