scaleX万卡超集群系统
搜索文档
国产算力迈入“万卡”时代:摩尔线程发布新一代GPU架构,中科曙光发布万卡超集群
经济观察网· 2025-12-20 14:47
行业竞争焦点转移 - 国产算力产业链竞争焦点已从比拼单卡参数转向构建能稳定运行的万卡级系统[2] - 当模型参数量突破万亿,算力提升依赖规模堆叠,核心问题是如何让上万张计算卡协同工作[2] 摩尔线程新产品发布 - 摩尔线程发布最新全功能GPU架构“花港”,新架构算力密度提升50%,效能提升10倍[3] - “花港”架构支持从FP4到FP64的全精度计算,并新增对MTFP6、MTFP4及混合低精度的支持[3] - 基于新架构规划两款芯片:“华山”定位AI训推一体,专攻大规模智算;“庐山”专注高性能图形渲染,其AI计算性能较前代提升64倍,光线追踪性能提升50%[4] - 公司坚持“全功能GPU”技术路线,同时覆盖图形渲染与人工智能计算两个市场[5] 中科曙光万卡集群系统 - 中科曙光发布“scaleX”万卡超集群系统,这是国产万卡级算力集群首次以真机形式公开亮相[6] - 系统由16个scaleX640超节点通过scaleFabric高速网络互连,总计可部署10240块AI加速卡[10] - 系统采用浸没相变液冷技术,单机柜算力密度相比业界提升20倍,PUE值降至1.04[12] 解决通信与散热挑战 - 构建万卡集群需解决散热、供电与物理空间限制等多重物理与工程难题[7][8] - 高功率算力芯片集中部署会产生惊人热量和电力消耗[9] - 摩尔线程在“花港”架构中集成新一代异步编程模型,并通过自研MTLink互联技术宣称支持十万卡以上规模集群扩展[12] - 中科曙光发布scaleFabric网络,基于国内首款400G类InfiniBand的原生RDMA网卡与交换芯片,实现400Gb/s带宽与低于1微秒的端侧通信延迟[12] 大模型推理能力验证 - 随着DeepSeek等国产大模型参数量达671B级别,在国产硬件上跑通这些模型成为硬件厂商的试金石[13] - 摩尔线程展示与硅基流动合作的测试数据:在DeepSeek R1 671B全量模型上,其MTT S5000单卡Prefill吞吐量突破4000 tokens/s,Decode吞吐量突破1000 tokens/s[13] 软件生态与系统兼容性 - 摩尔线程宣布其MUSA统一架构升级至5.0版本,核心计算库muDNN在GEMM与FlashAttention上的效率超过98%[13] - 硬件规格逼近国际主流后,国产厂商研发重心正向软件栈优化转移[13] - 中科曙光scaleX万卡超集群支持多品牌加速卡,并已完成400余个主流大模型的适配优化,采用开放架构策略[14]