SemiAnalysis：AMD vs NVIDIA 推理基准测试：谁赢了？--性能与每百万令牌成本分析

纪要涉及的行业和公司 - 行业：数据中心AI GPU行业 - 公司：AMD、NVIDIA 纪要提到的核心观点和论据性能表现 - 不同工作负载下性能差异：对于直接拥有并运营GPU的超大规模企业和公司，某些工作负载下英伟达每美元性能更优，其他工作负载中AMD更佳；使用短期至中期租赁服务的客户，通过Neocouds平台租用显卡时，英伟达始终在每美元性能上胜出，原因是缺乏提供AMD M00X、M25X的Neocouds服务商，导致其租赁市场价格居高不下，而英伟达有数百个Neocouds提供相关显卡，租赁市场竞争激烈[6][7]。 - 各型号GPU性能对比 - M00X：在大多数测试场景中无法与H200竞争，但对于Lama 05B和DeepSeekv 70B，在绝对性能和每美元性能上击败H100[12]。 - M25X：本应是H200的竞争对手，但因发货延迟，多数客户选择B200；在部分场景如高并发下的Llama 70B和Llama 05B测试中有优势，但整体性能受发货时间影响[8][13][74][86]。 - B200：软件支持仍未完善，但对于当前可部署的负载和模型占据绝对优势，M25和H200性能远不及它[13]。 - H200：解决了H100容量短板，在多数测试中表现出色，采用TensorRT - LLM的H200性能优势明显[22][76][88]。市场份额 - AMD在数据中心AI GPU市场份额自202年第一季度起持续增长，但2025年第一季度因英伟达推出Backwe架构产品，而AMD对标方案要到2025年第三季度面世，市场份额相应下滑，预计2025年第二季度继续下降，不过随着M55X推出和软件改进，有望在年底或明年初重新夺回部分份额[26][27]。基准测试方法论 - 强调在线吞吐量与延迟关系：为接近现实推理工作负载，强调分析特定配置下在线吞吐量与每位用户端到端延迟的关系，而非传统离线基准测试，通过增加并发用户数测量延迟上升，得出反映实际运营和用户体验的吞吐量指标[30][31]。 - 模型选择：针对现实世界生产负载的密集架构和稀疏混合专家（MoE）架构模型进行测试，分别选择Lama 70B、Lama 05B和DeepSeekV 70B作为代表[45][46][47]。 - 输入/输出令牌长度：测试三种不同输入输出令牌长度组合，分别代表摘要、翻译或对话、推理密集型任务，以全面了解模型和硬件在不同推理工作负载下的性能[49][50][51][52]。 - 推理引擎：针对不同模型选择不同推理引擎，如Lama 70B和05B选vLLM，H200平台额外评估TensorRT - LLM；DeepSeek 70B选SGLang[54][55][59][60]。 - 并行策略：系统性评估每种GPU架构和测试场景下所有可行的张量并行（TP）配置，测量吞吐量和延迟确定最优并行策略[61][62]。成本分析 - 总拥有成本（TCO）：AMD的M00X和M25X GPU通常每小时总成本低于NVDA的H100和H200 GPU，但在不同延迟和模型测试场景下，性价比表现不同[110][111]。 - 租赁成本：在GPU租赁市场，AMD因供应有限、市场竞争不足，租赁价格被抬高，整体成本竞争力削弱，英伟达始终在每美元性能上优于AMD；为使AMD GPU在租赁市场与英伟达竞争，M00X和M25X在不同工作负载下需达到特定租赁价格[158][159][160][167][170][171]。其他重要但可能被忽略的内容 - 生产延迟问题：AMD的M25X发货延迟，英伟达的GB200 NVL72也因集成NVLink背板挑战和缺乏调试工具遭遇严重延误[24][25]。 - 软件支持问题：B200和GB200软件支持不完善，如FP8 DeepSeek V在相关推理框架上无法正常运行；AMD的M55X因量产机型未上市、存在未修复缺陷未进行测试[13][172][174]。 - 基准测试阻碍：服务框架调优参数标志多、文档不足，代码更新快，无法跨机器并行实验，AMD维护独立代码库分支和配置等问题导致基准测试耗时且困难[182][184][185][186]。 - 持续集成测试问题：AMD的SGLang持续集成（C）测试覆盖率远不及NVDA，有数十项单元测试缺失，影响软件质量和开发者体验[188][189]。 - 模型准确性问题：AMD在夜间准确性测试方面此前为零，25%的测试模型在AMD平台上准确性测试失败，同一模型在ROCm上运行答案不如在NVDA上智能[194][195]。