Workflow
软件生态系统
icon
搜索文档
对抗英伟达,AMD的另一把利器
半导体行业观察· 2025-06-14 11:09
核心观点 - AMD在AI性能竞争中仍落后于Nvidia,正通过战略收购缩小差距,但Nvidia在硬件效率和软件生态系统方面保持显著领先[1][3][7] 战略收购举措 - 近期收购包括Brium、Silo AI、Nod.ai及Untether AI工程团队,旨在增强AI软件、推理优化和芯片设计能力[3] - Brium收购重点提升编译器技术和端到端AI推理优化,影响OpenAI Triton等项目,采用MX FP4/FP6精度格式提升硬件性能[4] - Untether AI工程团队收购聚焦节能推理处理器技术,强化编译器和SoC设计能力,但未收购公司导致其产品失去支持[5][6] 技术差距与竞争态势 - AMD Instinct GPU与Nvidia Blackwell系列存在性能和生态系统差距,需通过软件优化减少硬件依赖[3][4] - 行业认为能源效率和推理性能是下一阶段重点,AMD正招募人才加速推理能力提升[5][6] - Nvidia凭借CUDA软件生态和硬件处理能力保持领先,Blackwell仍被视为AI工作负载的黄金标准[4][7]
AMD甩出最猛两代AI芯片,全球首推432GB HBM4,OpenAI CEO现场夸
36氪· 2025-06-13 10:04
产品发布 - AMD在Advancing AI大会上发布史上最强AI新品阵容,包括旗舰数据中心AI芯片、AI软件栈、AI机架级基础设施、AI网卡与DPU,展现与英伟达竞争雄心 [1] - 重点产品包括数据中心AI芯片MI350系列和MI400系列,其中MI350系列采用3nm制程,集成1850亿晶体管,基于CDNA 4架构,搭载288GB HBM3e内存,内存带宽8TB/s,单GPU可运行5200参数大模型,FP4/FP6精度下峰值算力20PFLOPS,推理性能达上一代35倍 [5] - MI400系列专为大规模训练和分布式推理设计,FP4精度下峰值算力40PFLOPS,FP8峰值性能20PFLOPS,搭载432GB HBM4内存,内存带宽19.6TB/s,性能相比MI355X提升10倍 [7][9] 性能对比 - MI355X与英伟达B200/GB200相比,内存容量多60%,FP64/FP32和FP6精度下峰值性能翻倍,FP16/FP8/FP4精度下性能相当 [36] - 运行DeepSeek R1模型时,MI350系列推理吞吐量超过英伟达B200 [5] - 8卡MI355X平台总内存2.3TB HBM3e,内存带宽64TB/s,FP4/FP6精度下峰值算力161PFLOPS [39][41] 软件生态 - 全新AI软件栈ROCm 7.0推理性能提升4倍以上,训练性能提升3倍,支持主流模型Day 0级支持,首度支持Windows系统 [12] - ROCm 7引入分布式推理方法,与SGLang、vLLM等开源框架协作,运行DeepSeek R1 FP8精度时吞吐量比B200高30% [85][86] - AMD推出开发者云,提供即时访问MI300X GPU,预装流行AI软件,率先注册开发者可获得25小时免费积分 [92][93] 基础设施 - 下一代"Helios"AI机架级解决方案支持72块MI400系列GPU,FP4峰值算力2.9EFLOPS,HBM4内存容量、带宽等指标比英伟达Oberon机架高50% [14][19][21] - Helios集成EPYC "Venice" CPU、MI400系列GPU和Pensando "Vulcano" NIC,其中EPYC "Venice"采用2nm制程,基于Zen 6架构,最多256核 [21] - AMD剧透2027年将推出下一代机架级解决方案,集成EPYC "Verano" CPU、MI500系列GPU和Pensando "Vulcano" NIC [24] 行业趋势 - 数据中心AI加速器TAM市场将年增60%以上,2028年达5000亿美元,推理将成为AI计算最大驱动力,未来几年年增80%以上 [30] - 全球10大AI公司中有7家正大规模部署AMD Instinct GPU [34] - AMD设定2030年新目标:将机架级能效提高20倍,使目前需275个机架的AI模型能在1个机架内训练,运营用电量减少95% [118]
华为能够挑战英伟达的 CUDA 吗?
傅里叶的猫· 2025-05-06 20:07
英伟达的软件护城河 - 英伟达的竞争优势核心在于CUDA生态系统,包括专有编程模型、丰富库和与PyTorch的深度整合 [2][5] - CUDA起源于2007年,通过免费提供和开发者社区建设解决了先有鸡还是先有蛋的问题,最终在2012年因AlexNet训练成功获得认可 [6][7] - CUDA的转换成本极高,开发者需重写代码并失去成熟库和社区支持,PyTorch等框架也依赖CUDA作为后端 [8][10] 华为的三管齐下战略 - 自主研发CANN软件栈和MindSpore框架,试图复制PyTorch+CUDA的全栈体验 [11][12] - 深化PyTorch兼容性,通过torch_npu适配器连接昇腾硬件,但存在版本兼容性和稳定性问题 [11][20][22] - 投入ONNX开放标准优化,实现跨硬件模型部署,允许英伟达训练模型在昇腾芯片上推理 [25][27] 华为软件生态的现状与挑战 - CANN 8.0版本被宣传为重要进展,但开发者反馈其使用困难且缺乏社区支持,昇腾910C推理性能仅为H100的60% [13][17] - 华为模仿英伟达早期策略,派驻工程师协助客户迁移代码,如百度、腾讯等 [16] - 开发者社区活跃度低,知乎用户抱怨文档杂乱且故障排查资源有限,与英伟达的成熟生态差距显著 [13][16][22] 华为与PyTorch的整合进展 - 华为2023年加入PyTorch基金会,通过torch_npu适配器实现昇腾支持,但代码未并入主库导致维护挑战 [19][21] - PyTorch基金会表态支持硬件多样性,华为的理事会席位可能推动其贡献被正式采纳 [23] - 开发者指出昇腾对PyTorch第三方扩展支持不足,部署大规模模型存在兼容性问题 [22] ONNX在华为战略中的角色 - ONNX作为模型"PDF格式",使英伟达训练模型可导出并在昇腾芯片部署,华为维护专用ONNX Runtime优化内核 [25][26] - 该方案适合中国市场,允许训练依赖英伟达硬件而推理转向华为,但部分PyTorch操作无法完美转换 [27] 长期竞争前景 - 华为需多年构建成熟生态,英伟达CUDA优势积累耗时18年,当前开发者不满可能随社区扩大转化为资源 [29] - 人工智能驱动的软件优化(如AI CUDA工程师技术)可能加速华为性能差距缩小 [18] - 模型部署是近期突破口,如DeepSeek R1案例显示英伟达训练模型可在昇腾运行,但全栈替代仍需时间 [28][29]