万卡集群点亮中原：国家级“智算样板间”的落地与远见

核心事件与意义 - 2024年2月5日，由中科曙光提供的3套万卡超集群系统在国家超算互联网核心节点（郑州）上线试运行，成为全国首个实现3万卡部署且投入运营的最大国产AI算力池 [1] - 此举标志着郑州成为AI时代中国算力基础设施的战略枢纽，是国家级“智算样板间”践行“开放架构”的关键里程碑，对未来全国的产业协同、AI创新和生态赋能具有重要意义 [1][12] 行业背景与需求 - AI时代，大模型、AI Agent、AI for Science等需求爆炸式增长，导致算力需求激增 [3][14] - 当前大量数据中心、智算中心存在供需脱节、标准不一、生态不兼容等问题，导致算力闲置和资源配置效率偏低 [3][14] - 国家超算互联网旨在构建国家级算力设施与服务平台，打破壁垒、降低算力成本，让算力像水电一样自由流通和高效使用 [5][16] 技术方案与性能 - 部署的系统为中科曙光scaleX万卡超集群，最大可对外提供超过3万张国产AI加速卡算力 [6][16] - 该系统通过scaleFabric高速网络互连，可实现10240块AI加速卡部署，采用超高密度刀片和浸没相变液冷技术，将单机柜算力密度提升20倍，PUE值低至1.04 [7][16] - 采用自主研发原生RDMA高速网络，实现400Gb/s超高带宽和低于1微秒的端侧通信延迟，集群规模可扩展至十万乃至百万卡以上 [7][17] - 通过存、算、传紧耦合深度优化，可将AI加速卡资源利用率提高55%，并通过数字孪生和智能运维实现长期可用性达99.99% [7][17] - 智能调度引擎可服务十万级用户，支持每秒万级作业调度 [7][17] - 该系统在2023年12月首次真机亮相，两个月后即实现超3万卡规模落地，标志着国产万卡集群进入规模化部署与实战应用新阶段 [8][17] 开放架构与生态 - scaleX万卡超集群践行AI计算开放架构理念，全面兼容CUDA等主流软件生态，并支持多种AI加速卡混合部署 [10][19] - 开放架构能促进技术创新和产业协同，降低用户适配和使用门槛，推动算力普惠并催生创新浪潮 [10][19] - 基于开放架构，该系统已完成400多个主流大模型和世界模型的适配优化，依托国家超算互联网可接入上千款应用，链接更多生态伙伴，实现“算力+应用”一体化交付 [10][19] 战略定位与展望 - 算力网络正成为AI革命的基石，此次3套万卡集群落地是国家发展算力基础设施的清晰路径表达：注重自主创新与开放包容，追求技术领先与普惠共享 [12][20] - 该事件展示了国产大规模智算基础设施的先进性，并证明了开放包容路径的可行性与优越性 [12][20]