文章核心观点 - 文章报道了首届光合组织人工智能创新大会(HAIC2025)的盛况,并重点阐述了中国AI计算产业在摩尔定律放缓的背景下,通过发展系统级工程、开放合作与生态共建来应对大模型算力挑战,以海光信息和中科曙光为代表的企业展示了其在芯片、超集群系统及开放架构方面的创新与实践,标志着中国AI产业正迈向一个新时代 [2][4][13][14] 行业背景与挑战 - 摩尔定律在工艺演进至7nm后逐渐失效,单芯片性能迭代已无法满足爆炸式增长的大模型算力需求,行业必须转向系统级解决方案 [4] - 大模型发展对计算装备提出了前所未有的新要求,挑战主要集中在内存容量与带宽、各类互联(线间、节点间)的带宽与延迟、系统能耗与能效、稳定性以及应用生态兼容性等方面 [2] 企业战略与解决方案 海光信息的“双芯战略” - 海光信息推出“双芯战略”,核心举措包括围绕HSL总线互联协议和共建AI软件栈体系,旨在为行业智能化提供“源”动力 [5] - 该战略的优势在于国内AI产品种类比国际更丰富,生态连接更深入,能够针对主流应用实现定制化、应用化、深入化和适配化,这是其“C86+GPGPU”技术路线的独特优势 [6] - 海光致力于每年迭代一代芯片以实现性能翻番,缩短与国际巨头的差距,并通过开源开放协同光合组织超6000家合作伙伴共建“人工智能+”产业生态系统 [5] - 未来将更大力度开放系统总线互联协议(HSL),并携手国产AI芯片厂商共建高效开放的软件栈生态标准,逐步打造“中国版CUDA” [13] 中科曙光的超集群系统 - 中科曙光发布了全球首个单机柜实现640卡全互联的超节点——曙光scalex640,其创新点包括:采用浸没式液体相变冷却技术实现全年自然冷却与超低PUE(低至1.04)、高压直流供电技术优化电源效率、超高速硬件架构设计实现单机柜640卡全电互联 [8] - 在scalex640基础上,中科曙光展出了全球领先的大规模智能计算系统——scaleX万卡超集群,这是国产万卡级AI集群系统首次以真机形式亮相 [9] - scaleX万卡超集群由16个scaleX640超节点通过scaleFabric高速网络互连而成,可实现10240块AI加速卡部署,总算力规模超5EFlops,将单机柜算力密度提升20倍 [11] - scaleFabric网络基于国内首款400G类InfiniBand的原生RDMA网卡与交换芯片自主研发,实现400Gb/s超高带宽、低于1微秒端侧通信延迟,相比传统IB网络性能提升2.33倍,同时网络总体成本降低30%,并可轻松将集群规模扩展至10万卡以上 [11] - 该系统通过“超级隧道”、AI数据加速等设计实现存、算、传紧耦合深度优化,可将AI加速卡资源利用率提高55%,并通过物理集群数字孪生实现智能运维,支撑集群长期可用性达99.99% [12] - 中科曙光强调打造AI开放架构的决心,希望开放公司在各技术链条的积累,让产业链合作伙伴能专注自身擅长领域,协力推动生态发展 [12] - 为打造更具竞争力的集群,中科曙光在多个层面进行研发投入,例如自研中国最好的112G SerDes,为Scale Fabric网络提供了应对复杂环境可靠性风险的底气 [13] 技术趋势与生态发展 - 大模型对算力的需求依然火爆,同时MOE已成为主流模型架构,对通讯效率和性能要求持续提升,KV Cache等技术正推动CPU与AI芯片融合,共同构建异构算力的超级大脑 [4][5] - 行业需要从单点突破转向系统工程,并通过合作开放促进跨层软硬件协同与产业链合作共赢 [2] - “十五五”规划将人工智能提升至战略高度,顺应国家发展与产业升级需求 [5] - 中国人工智能生态链从业者正通过AI开放架构的支持,推动本土AI芯片、基础设施、大模型及应用在国际上大放异彩 [14]
国产万卡超集群亮相:中国人工智能,迈入新阶段