Oracle Unveils Next-Generation Oracle Cloud Infrastructure Zettascale10 Cluster for AI
甲骨文甲骨文(US:ORCL) Prnewswire·2025-10-14 20:24

产品发布与核心性能 - 甲骨文公司宣布推出云端最大的AI超级计算机OCI Zettascale10,其峰值性能高达16 zettaFLOPS [1] - OCI Zettascale10连接了数十万个NVIDIA GPU,形成多个千兆瓦级集群,提供前所未有的多千兆瓦AI工作负载容量和规模 [1] - 该产品是首个Zettascale云计算集群的重大升级版,于2024年9月首次推出 [2] 技术架构与合作 - OCI Zettascale10基于下一代Oracle Acceleron RoCE网络架构,并采用NVIDIA AI基础设施构建 [1] - 该架构是与OpenAI在德克萨斯州阿比林市合作建设的旗舰超级集群Stargate的基础 [1][2] - 其集群部署在大型千兆瓦数据中心园区内,在2公里半径内进行超优化密度设计,旨在为大规模AI训练工作负载提供最佳的GPU间延迟 [2] 关键性能与优势 - Oracle Acceleron RoCE网络架构通过将GPU NIC用作微型交换机并连接到多个物理和逻辑隔离的平面,帮助客户以更低的总成本更快地部署更大的AI集群 [4] - 该架构通过消除跨平面的数据共享,将流量从不稳定或拥塞的平面转移,从而保持训练作业运行,避免代价高昂的检查点重启,提高了可靠性 [4] - 与传统三层设计相比,该架构减少了一个层级,为客户提供更均匀的GPU间延迟,提高了大规模AI训练和推理的可预测性 [11] - 该架构支持线性可插拔光模块和线性接收器光模块,可在不牺牲400G/800G吞吐量的情况下降低网络和冷却成本,使客户能将更多电力预算用于计算 [11] 客户价值与市场定位 - 客户可以利用OCI Zettascale10构建、训练并将其最大的AI模型投入生产,同时实现每单位性能更低的功耗和更高的可靠性 [3] - 客户将能够在甲骨文的分布式云中自由操作,并拥有强大的数据和AI主权控制 [3] - 该产品旨在提供可预测的性能和强大的成本效益,初始集群目标部署高达80万个NVIDIA GPU平台 [3][5] 合作伙伴评价 - OpenAI表示,高度可扩展的定制RoCE设计在千兆瓦规模上最大化全域性能,同时将大部分电力集中在计算上 [3] - NVIDIA表示,OCI Zettascale10提供了推进最先进AI研究所需的计算架构,并帮助全球各组织从实验阶段过渡到工业化AI [4] 产品上市计划 - OCI Zettascale10现已接受订购,计划在下一个日历年度的下半年上市 [5]