文章核心观点 - 中国AI算力基础设施发展迎来标志性拐点,中科曙光推出首个国产万卡级AI超集群scaleX万卡超节点真机,标志着中国超节点真正迈入万卡纪元[1][3] - 为应对英伟达技术依赖与出口限制,中国AI算力产业探索出两条主要发展路径:以华为为代表的封闭全栈自研路线,和以曙光、浪潮、阿里为代表的开放协同路线[4][8] - 开放路线的推进促进了国产AI加速卡的大规模落地应用,使中国AI算力体系具备了“多芯片共存”的自我造血能力,不再依附于单一生态[7][9] - 2025年是中国AI算力体系发展的“拐点之年”,产业发展逻辑从单一性能比拼转向注重高效协同与生态共生,未来在于两条路线的共存与平衡[11] 超节点技术发展背景与转折 - 三年前,国内AI算力体系高度依赖英伟达的GPU、NVLink和CUDA生态[4] - 英伟达高端GPU出口限制、CUDA生态不开放、NVLink技术不授权,迫使国内厂商寻求自主算力体系解决方案[4] - 超节点被视为下一代智能计算核心单元,能整合上万张AI加速卡为统一逻辑节点,将通信时延压缩至微秒级,突破传统集群通信瓶颈[5] 封闭全栈自研路线(以华为为代表) - 华为采用“全栈自研”路径,涵盖底层芯片、互联技术到上层框架软件[4] - 华为昇腾384超节点延续纵向一体化思路,全系统自研,实现高性能:通信延迟仅2.1微秒,单机柜算力达300PFlops,PUE稳定在1.1左右[4] - 该路线选择“封闭自洽”,资源效率与技术把控力强,但生态兼容性受限,产业协同推进速度较慢[4] - 华为CM384超节点已出货多套,在贵州数据中心投入运营[9] 开放协同路线(以曙光、浪潮、阿里为代表) - 曙光、浪潮、阿里在2025年下半年先后推出超节点产品,以“开放架构”为核心,致力于打造中国AI算力底层基础[5][6] - 浪潮“元脑SD200”:主打多品牌GPU异构计算,创下8.9毫秒生成token的纪录[6],已在多个模型推理平台商用,为DeepSeek、Kimi等大模型提供算力支撑[9] - 阿里“磐久128”:依靠开放协议整合不同互联标准,搭建出“云端超节点”[6],在云端承担多模型协作的基础设施角色[9] - 中科曙光“scaleX万卡超节点”:由16个scaleX640超节点互联组成,部署10240张AI加速卡,总算力突破5EFlops[7],搭载自研scaleFabric高速网络,带宽达400Gb/s,端侧延迟不到1微秒[7],采用浸没相变液冷技术,单机柜PUE压低至1.04[7],产品不绑定单一芯片厂商,能兼容寒武纪、壁仞、登临等多个品牌加速卡,已适配400多个主流大模型和AI框架[7],已落地上海、杭州等地智算中心,并被纳入国家级算力调度工程采购清单[9] 去英伟达化与生态构建 - 美国自2023年起多次收紧对华高性能GPU(如A100、H100)出口限制,英伟达超节点NVL72也在限制之内,安全风险凸显,加速了中国AI产业寻找替代方案[8] - 核心目标是构建具备可替代性的完整算力生态系统,而非简单复制英伟达[8] - 开放路线带动了国产芯片大规模落地:曙光scaleX体系已完成对壁仞BR系列、登临、寒武纪MLU等多款国产加速卡的适配;浪潮和阿里也为本土GPU预置驱动环境[9] - 这标志着中国AI算力基础设施不再依附于单一英伟达生态,形成了以中国厂商为核心的开放协作系统,具备了自我造血能力[9] 产业发展趋势与未来 - 2025年是中国AI算力体系发展的“拐点之年”[11] - 封闭路线占据性能高地,在特定场景中具备不可替代的价值;开放路线贴合产业发展现实需求,推动了算力普惠与生态繁荣[11] - 产业发展逻辑发生转变:从单一维度性能比拼转向注重不同芯片的高效协同;从不同体系间的孤立较量转向多元生态下的共生共赢[11] - 中国AI算力的未来很可能在于封闭与开放两条路线的共存与平衡之中[11]
国产算力的开放时刻:超节点迈入万卡纪元