Workflow
semianalysis-AMD 2.0-新的紧迫感 MI450X 有望击败英伟达 英伟达的新护城
NVDANvidia(NVDA)2025-04-24 09:55

纪要涉及的行业和公司 行业为半导体行业,尤其是人工智能GPU领域;公司主要涉及AMD和NVIDIA,还提及了Google、Microsoft、OpenAI、Oracle等相关企业 纪要提到的核心观点和论据 AMD现状与进展 - 积极变化:自2024年12月文章发布后,AMD有了紧迫感,在AI软件栈上进步显著,如2025年1月推出开发者关系功能、采用开发者优先策略、将MI300加入PyTorch CI/CD等,且在基准测试和性能声明的可重复性上超越NVIDIA [4][10][24][25][30] - 产品竞争力:MI325X和MI355X市场表现不佳,MI325X推出时间晚,MI355X规模扩展性不如NVIDIA的GB200 NVL72,但在特定场景下,MI355X对小型和中型模型有一定竞争力;预计2026年下半年推出的MI450X IF64和MI450X IF128可能与NVIDIA的VR200 NVL144竞争 [7][169][171][172][173][200][228] - 开发者生态:认识到开发者对CUDA成功的重要性,采取开发者优先策略,但开发者关系团队规模小,缺乏类似NVIDIA GTC的开发者大会 [26][36][37][40] - 软件问题:ROCm软件存在诸多问题,如缺乏一流的Python支持、Python内核DSL不足、RCCL与NCCL差距大、软件基础设施层进展慢、缺乏推理功能支持等 [11][86][89][107][131][142] - 人才与资源:AI软件工程师薪酬缺乏竞争力,难以吸引和留住人才;内部开发集群资源不足,限制创新和发展 [59][61][69][70] NVIDIA优势与进展 - 软件生态:CUDA拥有庞大的开发者生态系统,新想法和突破通常先在CUDA上出现,问题发现和修复更快;在Python支持和内核DSL方面领先,不断推出新功能和库 [31][32][77][89] - 产品优势:产品推出节奏和性能领先,如GB200 NVL72在规模扩展性上优于AMD产品;NCCL功能不断改进和增强,拉开与RCCL的差距 [7][110][114] - 开发者支持:通过GTC开发者大会等方式为开发者提供学习和交流平台,开发者生态完善 [39] 对AMD的建议 - 人才与薪酬:调整薪酬结构,提高AI软件工程师的RSU,吸引和留住人才 [67] - 研发投入:增加研发预算,为团队提供更多GPU资源,转向长期、多年的集群采购策略 [9][75] - 开发者生态:招聘20多名开发者关系工程师,举办“ROCm开发者大会”,捐赠GPU给学术实验室 [40][45] - 软件改进:投资Python接口,加强RCCL团队资源,解决软件基础设施层问题,支持分解预填充推理和NVMe KV缓存分层等功能 [164] - 产品宣传:公布模型FLOPS利用率(MFU)和TFLOP/s/GPU [164] 对NVIDIA的建议 - API扩展:继续快速扩展API表面积,保持领先地位 [167] - 开发者支持:探索将消费级GPU纳入PyTorch CI/CD的策略,提高用户体验 [168] - 功能集成:将用户缓冲区注册功能集成到整个PyTorch栈,与Meta PyTorch团队合作集成快速RMSNorm内核等 [170] - 开源与规范:遵循开源精神,避免过度夸大FLOP/s规格 [170] 其他重要但可能被忽略的内容 - MI355X微架构:采用Hopper SM90风格微架构,但picoJoules per bit和picoJoules per FLOP高于Blackwell的SM100 uarch,且浪费过多硅面积在FP64核心上 [175][178] - MI400系列灵活IO:采用144条IO通道支持多种标准,提供了极大的灵活性,但增加了硅工程的难度和风险 [183][184][187] - MI430X UL4:是HPC聚焦的CDNA - NEXT芯片,因UALink开关限制,只能在4个GPU之间进行点对点连接 [188][189] - MI450X Infinity Fabric over Ethernet:预计2026年下半年推出,有IFoE64和IFoE128两种SKU,在理论上具有竞争力,但IFoE128面临电缆管理和信号完整性挑战 [200][214][223][226] - 产品定价与TCO:AMD的MI300X和MI325X服务器级成本和集群前期总成本比NVIDIA的H100低20 - 30%,运营成本相似,总体拥有成本低于NVIDIA [230][232][236]