万卡集群点亮中原:国家级“智算样板间”的落地与远见

核心事件与意义 - 2024年2月5日,由中科曙光提供的3套万卡超集群系统在国家超算互联网核心节点(郑州)上线试运行,成为全国首个实现3万卡部署且投入运营的最大国产AI算力池 [1] - 此举标志着郑州成为AI时代中国算力基础设施的战略枢纽,是国家级“智算样板间”践行“开放架构”的关键里程碑,对未来全国的产业协同、AI创新和生态赋能具有重要意义 [1][12] 行业背景与需求 - AI时代,大模型、AI Agent、AI for Science等需求爆炸式增长,导致算力需求激增 [3][14] - 当前大量数据中心、智算中心存在供需脱节、标准不一、生态不兼容等问题,导致算力闲置和资源配置效率偏低 [3][14] - 国家超算互联网旨在构建国家级算力设施与服务平台,打破壁垒、降低算力成本,让算力像水电一样自由流通和高效使用 [5][16] 技术方案与性能 - 部署的系统为中科曙光scaleX万卡超集群,最大可对外提供超过3万张国产AI加速卡算力 [6][16] - 该系统通过scaleFabric高速网络互连,可实现10240块AI加速卡部署,采用超高密度刀片和浸没相变液冷技术,将单机柜算力密度提升20倍,PUE值低至1.04 [7][16] - 采用自主研发原生RDMA高速网络,实现400Gb/s超高带宽和低于1微秒的端侧通信延迟,集群规模可扩展至十万乃至百万卡以上 [7][17] - 通过存、算、传紧耦合深度优化,可将AI加速卡资源利用率提高55%,并通过数字孪生和智能运维实现长期可用性达99.99% [7][17] - 智能调度引擎可服务十万级用户,支持每秒万级作业调度 [7][17] - 该系统在2023年12月首次真机亮相,两个月后即实现超3万卡规模落地,标志着国产万卡集群进入规模化部署与实战应用新阶段 [8][17] 开放架构与生态 - scaleX万卡超集群践行AI计算开放架构理念,全面兼容CUDA等主流软件生态,并支持多种AI加速卡混合部署 [10][19] - 开放架构能促进技术创新和产业协同,降低用户适配和使用门槛,推动算力普惠并催生创新浪潮 [10][19] - 基于开放架构,该系统已完成400多个主流大模型和世界模型的适配优化,依托国家超算互联网可接入上千款应用,链接更多生态伙伴,实现“算力+应用”一体化交付 [10][19] 战略定位与展望 - 算力网络正成为AI革命的基石,此次3套万卡集群落地是国家发展算力基础设施的清晰路径表达:注重自主创新与开放包容,追求技术领先与普惠共享 [12][20] - 该事件展示了国产大规模智算基础设施的先进性,并证明了开放包容路径的可行性与优越性 [12][20]

万卡集群点亮中原:国家级“智算样板间”的落地与远见 - Reportify