ROCm 7软件栈 - 财报，业绩电话会，研报，新闻

ROCm 7软件栈

搜索文档

超越英伟达B200！AMD最强AI芯：1.6倍大内存、大模型推理快30%，奥特曼都来站台

量子位· 2025-06-13 10:25

产品发布 - AMD发布MI350X和MI355X两款GPU，采用3nm工艺，包含1850亿晶体管，配备HBM3E内存 [2] - MI350系列相比前代MI300X算力提升4倍，推理速度快35倍 [3] - MI350系列内存是英伟达B200的1.6倍，训练推理速度相当或更快 [4] - MI355X每花费1美元可比B200多跑40%的tokens [5] - MI350X和MI355X基于第四代Instinct架构(CDNA 4)，配备288GB HBM3E内存和8TB/s内存带宽 [9] - MI350X最高TBP为1000W(风冷)，MI355X为1400W(液冷) [10] 性能参数 - MI350X和MI355X在FP64上算力分别为72和78.6TFLOPs，是英伟达的2倍 [12] - 低精度格式(FP16/FP8/FP4)性能与英伟达相当或略胜一筹 [13] - MI350系列FP6性能可以FP4速率运行 [14] - 8个MI355X组成节点，FP8算力81PF，FP6/FP4算力161PF [17] - 128GPU集群FP8算力可达1.3EFLOPs [18] 大模型表现 - MI355X(FP4)运行Llama 3.1 405B比MI300X(FP8)快35倍 [21] - 运行DeepSeek R1/Llama 4 Maverick/Llama 3.3 70B推理性能达3倍 [23] - MI355X在DeepSeek R1和Llama 3.1 405B上分别比B200高20%和30% [24] 软件生态 - 发布ROCm 7软件栈，带来3.5倍推理和3倍训练性能提升 [32] - ROCm 7支持分布式推理，与VLM/SGLang集成，支持180万Hugging Face模型 [33] 未来路线图 - 明年将发布MI400系列，与OpenAI联合研发 [7][36][38] - MI400系列预计比MI300快10倍，FP4达40PFLOPs [41] - 配备432GB HBM4内存和19.6TB/s带宽 [42] - 搭配2nm Venice CPU(256个Zen6核心)和Vulcano网卡(800GB/s) [44][45][47] - Helios机架可连接72个GPU，260TB/s扩展带宽 [49] - 计划2027年推出MI500系列GPU和Verono CPU [52]