AI推理性能

搜索文档
SemiAnalysis:AMD vs NVIDIA 推理基准测试:谁赢了?--性能与每百万令牌成本分析
2025-05-25 22:09
纪要涉及的行业和公司 - **行业**:数据中心AI GPU行业 - **公司**:AMD、NVIDIA 纪要提到的核心观点和论据 性能表现 - **不同工作负载下性能差异**:对于直接拥有并运营GPU的超大规模企业和公司,某些工作负载下英伟达每美元性能更优,其他工作负载中AMD更佳;使用短期至中期租赁服务的客户,通过Neocouds平台租用显卡时,英伟达始终在每美元性能上胜出,原因是缺乏提供AMD M00X、M25X的Neocouds服务商,导致其租赁市场价格居高不下,而英伟达有数百个Neocouds提供相关显卡,租赁市场竞争激烈[6][7]。 - **各型号GPU性能对比** - **M00X**:在大多数测试场景中无法与H200竞争,但对于Lama 05B和DeepSeekv 70B,在绝对性能和每美元性能上击败H100[12]。 - **M25X**:本应是H200的竞争对手,但因发货延迟,多数客户选择B200;在部分场景如高并发下的Llama 70B和Llama 05B测试中有优势,但整体性能受发货时间影响[8][13][74][86]。 - **B200**:软件支持仍未完善,但对于当前可部署的负载和模型占据绝对优势,M25和H200性能远不及它[13]。 - **H200**:解决了H100容量短板,在多数测试中表现出色,采用TensorRT - LLM的H200性能优势明显[22][76][88]。 市场份额 - AMD在数据中心AI GPU市场份额自202年第一季度起持续增长,但2025年第一季度因英伟达推出Backwe架构产品,而AMD对标方案要到2025年第三季度面世,市场份额相应下滑,预计2025年第二季度继续下降,不过随着M55X推出和软件改进,有望在年底或明年初重新夺回部分份额[26][27]。 基准测试方法论 - **强调在线吞吐量与延迟关系**:为接近现实推理工作负载,强调分析特定配置下在线吞吐量与每位用户端到端延迟的关系,而非传统离线基准测试,通过增加并发用户数测量延迟上升,得出反映实际运营和用户体验的吞吐量指标[30][31]。 - **模型选择**:针对现实世界生产负载的密集架构和稀疏混合专家(MoE)架构模型进行测试,分别选择Lama 70B、Lama 05B和DeepSeekV 70B作为代表[45][46][47]。 - **输入/输出令牌长度**:测试三种不同输入输出令牌长度组合,分别代表摘要、翻译或对话、推理密集型任务,以全面了解模型和硬件在不同推理工作负载下的性能[49][50][51][52]。 - **推理引擎**:针对不同模型选择不同推理引擎,如Lama 70B和05B选vLLM,H200平台额外评估TensorRT - LLM;DeepSeek 70B选SGLang[54][55][59][60]。 - **并行策略**:系统性评估每种GPU架构和测试场景下所有可行的张量并行(TP)配置,测量吞吐量和延迟确定最优并行策略[61][62]。 成本分析 - **总拥有成本(TCO)**:AMD的M00X和M25X GPU通常每小时总成本低于NVDA的H100和H200 GPU,但在不同延迟和模型测试场景下,性价比表现不同[110][111]。 - **租赁成本**:在GPU租赁市场,AMD因供应有限、市场竞争不足,租赁价格被抬高,整体成本竞争力削弱,英伟达始终在每美元性能上优于AMD;为使AMD GPU在租赁市场与英伟达竞争,M00X和M25X在不同工作负载下需达到特定租赁价格[158][159][160][167][170][171]。 其他重要但可能被忽略的内容 - **生产延迟问题**:AMD的M25X发货延迟,英伟达的GB200 NVL72也因集成NVLink背板挑战和缺乏调试工具遭遇严重延误[24][25]。 - **软件支持问题**:B200和GB200软件支持不完善,如FP8 DeepSeek V在相关推理框架上无法正常运行;AMD的M55X因量产机型未上市、存在未修复缺陷未进行测试[13][172][174]。 - **基准测试阻碍**:服务框架调优参数标志多、文档不足,代码更新快,无法跨机器并行实验,AMD维护独立代码库分支和配置等问题导致基准测试耗时且困难[182][184][185][186]。 - **持续集成测试问题**:AMD的SGLang持续集成(C)测试覆盖率远不及NVDA,有数十项单元测试缺失,影响软件质量和开发者体验[188][189]。 - **模型准确性问题**:AMD在夜间准确性测试方面此前为零,25%的测试模型在AMD平台上准确性测试失败,同一模型在ROCm上运行答案不如在NVDA上智能[194][195]。
倒计时 6 天!致全球 GPU Kernel 极客:AMD 的 10 万美金“战书”请查收!
AI科技大本营· 2025-04-24 17:09
-I CSDN I- 2025.06.08 100.000美金 共赴硅谷巅峰之战! 注册报名二维码 致全球GPU kernel极客的一封战书: 亲爱的GPU kernel极客们, 是时候展现真正的实力了!我们诚挚邀请您参加由AMD发起并全程赞助的AMD 2025推理优化挑战赛!这是一个面向全球GPU kernel开发者的盛大赛事,AMD 倾力打造,邀您以代码为刃,挑战Al推理性能极限! 战,你能 斩获 什么? CSDN 智算极速争锋 AM D 2025 推理优化挑 2025.04.15 AMDA × FHE × 6 together we advance 破局时刻表 出名户站 2025 / 15 年日期期货 · 无需本地GPU! 云端算力平台,公平竞技,专注底层算子优化 ( low-level kernel ) 即可参赛! ● 单人亮剑或组队出征(≤3人),无国籍限制。 · 通过AMD官方验证后, 绑定GitHub ID解锁参赛权限。 ● 挑战优化三重DeepSeek算子:FP8 GEMM,MLA with Rope,Fused MoE。 ● 每两周一组,开放PyTorch参考实现及理论最大值性能等辅助开发的 ...