Oracle and AMD Expand Partnership to Help Customers Achieve Next-Generation AI Scale

合作公告概述 - 甲骨文与AMD宣布扩大合作，计划于2026年第三季度推出首个由50,000块AMD Instinct MI450系列GPU驱动的公开可用AI超级集群 [1] - 此次合作基于双方长期的多代合作，旨在帮助客户显著扩展其AI能力和计划 [1] - 该AI超级集群的初始部署为50,000块GPU，并计划在2027年及以后进一步扩展 [1] 技术合作与产品路线图 - 合作基础包括自2024年推出基于AMD Instinct MI300X的实例，并延伸至搭载AMD Instinct MI355X GPU的OCI Compute的普遍可用性 [2] - 这些产品将在zettascale级别的OCI超级集群中提供 [2] - 为应对下一代AI模型超越当前AI集群极限的需求，OCI计划的新AI超级集群将采用AMD "Helios"机架设计 [3] - "Helios"设计整合了AMD Instinct MI450系列GPU、代号为"Venice"的下一代AMD EPYC CPU以及代号为"Vulcano"的下一代AMD Pensando先进网络技术 [3] 产品性能与优势 - AMD Instinct MI450系列GPU每块将提供高达432 GB的HBM4内存和20 TB/s的内存带宽，使客户能够训练和推理比前一代大50%的模型 [5] - AMD优化的"Helios"机架设计通过密集的液冷72-GPU机架，优化性能密度、成本和能效 [5] - 强大的头节点采用下一代AMD EPYC CPU（代号"Venice"），以加速作业编排和数据处理，并提供机密计算能力及内置安全功能 [5] 网络与软件创新 - DPU加速的融合网络基于完全可编程的AMD Pensando DPU技术，为大规模AI和云基础设施提供线路速率的数据摄取能力 [11] - 用于AI的横向扩展网络使客户能够利用超快速分布式训练，每块GPU可配备多达三个800 Gbps的AMD Pensando "Vulcano" AI-NIC [11] - 创新的UALink和UALoE结构帮助客户高效扩展工作负载，并通过UALink协议在机架内的GPU之间实现直接、硬件一致的网络和内存共享 [11] - 开源的AMD ROCm软件栈为客户提供了一个开放、灵活的编程环境，包括流行的框架、库、编译器和运行时 [11] 市场定位与客户价值 - 甲骨文云基础设施旨在通过结合AMD最新处理器创新、其安全灵活的平台以及由Oracle Acceleron驱动的先进网络，为客户提供最佳性价比、开放、安全且可扩展的云基础 [4] - AMD强调，与甲骨文的合作通过为大规模AI数据中心构建的开放、优化且安全的系统，正在加速AI创新 [4] - OCI同时宣布搭载AMD Instinct MI355X GPU的OCI Compute普遍可用，该zettascale OCI超级集群可扩展至131,072块GPU，旨在提供卓越价值、云灵活性和开源兼容性 [6]