国产万卡超集群亮相：中国人工智能，迈入新阶段

文章核心观点 - 文章报道了首届光合组织人工智能创新大会（HAIC2025）的盛况，并重点阐述了中国AI计算产业在摩尔定律放缓的背景下，通过发展系统级工程、开放合作与生态共建来应对大模型算力挑战，以海光信息和中科曙光为代表的企业展示了其在芯片、超集群系统及开放架构方面的创新与实践，标志着中国AI产业正迈向一个新时代 [2][4][13][14] 行业背景与挑战 - 摩尔定律在工艺演进至7nm后逐渐失效，单芯片性能迭代已无法满足爆炸式增长的大模型算力需求，行业必须转向系统级解决方案 [4] - 大模型发展对计算装备提出了前所未有的新要求，挑战主要集中在内存容量与带宽、各类互联（线间、节点间）的带宽与延迟、系统能耗与能效、稳定性以及应用生态兼容性等方面 [2] 企业战略与解决方案海光信息的“双芯战略” - 海光信息推出“双芯战略”，核心举措包括围绕HSL总线互联协议和共建AI软件栈体系，旨在为行业智能化提供“源”动力 [5] - 该战略的优势在于国内AI产品种类比国际更丰富，生态连接更深入，能够针对主流应用实现定制化、应用化、深入化和适配化，这是其“C86+GPGPU”技术路线的独特优势 [6] - 海光致力于每年迭代一代芯片以实现性能翻番，缩短与国际巨头的差距，并通过开源开放协同光合组织超6000家合作伙伴共建“人工智能+”产业生态系统 [5] - 未来将更大力度开放系统总线互联协议（HSL），并携手国产AI芯片厂商共建高效开放的软件栈生态标准，逐步打造“中国版CUDA” [13] 中科曙光的超集群系统 - 中科曙光发布了全球首个单机柜实现640卡全互联的超节点——曙光scalex640，其创新点包括：采用浸没式液体相变冷却技术实现全年自然冷却与超低PUE（低至1.04）、高压直流供电技术优化电源效率、超高速硬件架构设计实现单机柜640卡全电互联 [8] - 在scalex640基础上，中科曙光展出了全球领先的大规模智能计算系统——scaleX万卡超集群，这是国产万卡级AI集群系统首次以真机形式亮相 [9] - scaleX万卡超集群由16个scaleX640超节点通过scaleFabric高速网络互连而成，可实现10240块AI加速卡部署，总算力规模超5EFlops，将单机柜算力密度提升20倍 [11] - scaleFabric网络基于国内首款400G类InfiniBand的原生RDMA网卡与交换芯片自主研发，实现400Gb/s超高带宽、低于1微秒端侧通信延迟，相比传统IB网络性能提升2.33倍，同时网络总体成本降低30%，并可轻松将集群规模扩展至10万卡以上 [11] - 该系统通过“超级隧道”、AI数据加速等设计实现存、算、传紧耦合深度优化，可将AI加速卡资源利用率提高55%，并通过物理集群数字孪生实现智能运维，支撑集群长期可用性达99.99% [12] - 中科曙光强调打造AI开放架构的决心，希望开放公司在各技术链条的积累，让产业链合作伙伴能专注自身擅长领域，协力推动生态发展 [12] - 为打造更具竞争力的集群，中科曙光在多个层面进行研发投入，例如自研中国最好的112G SerDes，为Scale Fabric网络提供了应对复杂环境可靠性风险的底气 [13] 技术趋势与生态发展 - 大模型对算力的需求依然火爆，同时MOE已成为主流模型架构，对通讯效率和性能要求持续提升，KV Cache等技术正推动CPU与AI芯片融合，共同构建异构算力的超级大脑 [4][5] - 行业需要从单点突破转向系统工程，并通过合作开放促进跨层软硬件协同与产业链合作共赢 [2] - “十五五”规划将人工智能提升至战略高度，顺应国家发展与产业升级需求 [5] - 中国人工智能生态链从业者正通过AI开放架构的支持，推动本土AI芯片、基础设施、大模型及应用在国际上大放异彩 [14]