Workflow
ROCm 7软件栈
icon
搜索文档
超越英伟达B200!AMD最强AI芯:1.6倍大内存、大模型推理快30%,奥特曼都来站台
量子位· 2025-06-13 10:25
产品发布 - AMD发布MI350X和MI355X两款GPU,采用3nm工艺,包含1850亿晶体管,配备HBM3E内存 [2] - MI350系列相比前代MI300X算力提升4倍,推理速度快35倍 [3] - MI350系列内存是英伟达B200的1.6倍,训练推理速度相当或更快 [4] - MI355X每花费1美元可比B200多跑40%的tokens [5] - MI350X和MI355X基于第四代Instinct架构(CDNA 4),配备288GB HBM3E内存和8TB/s内存带宽 [9] - MI350X最高TBP为1000W(风冷),MI355X为1400W(液冷) [10] 性能参数 - MI350X和MI355X在FP64上算力分别为72和78.6TFLOPs,是英伟达的2倍 [12] - 低精度格式(FP16/FP8/FP4)性能与英伟达相当或略胜一筹 [13] - MI350系列FP6性能可以FP4速率运行 [14] - 8个MI355X组成节点,FP8算力81PF,FP6/FP4算力161PF [17] - 128GPU集群FP8算力可达1.3EFLOPs [18] 大模型表现 - MI355X(FP4)运行Llama 3.1 405B比MI300X(FP8)快35倍 [21] - 运行DeepSeek R1/Llama 4 Maverick/Llama 3.3 70B推理性能达3倍 [23] - MI355X在DeepSeek R1和Llama 3.1 405B上分别比B200高20%和30% [24] 软件生态 - 发布ROCm 7软件栈,带来3.5倍推理和3倍训练性能提升 [32] - ROCm 7支持分布式推理,与VLM/SGLang集成,支持180万Hugging Face模型 [33] 未来路线图 - 明年将发布MI400系列,与OpenAI联合研发 [7][36][38] - MI400系列预计比MI300快10倍,FP4达40PFLOPs [41] - 配备432GB HBM4内存和19.6TB/s带宽 [42] - 搭配2nm Venice CPU(256个Zen6核心)和Vulcano网卡(800GB/s) [44][45][47] - Helios机架可连接72个GPU,260TB/s扩展带宽 [49] - 计划2027年推出MI500系列GPU和Verono CPU [52]