曙光scaleX万卡超集群系统 - 财报，业绩电话会，研报，新闻

曙光scaleX万卡超集群系统

搜索文档

中国基金报· 2025-12-20 21:32

公司技术发布 - 摩尔线程召开首届MUSA开发者大会，展示了以自主MUSA统一架构为核心的全栈技术成果 [2] - 公司揭晓新一代全功能GPU架构“花港”，在计算密度、能效、精度支持、互联能力及图形技术等方面实现全面突破 [3] - 基于“花港”架构，公司公布了两款未来芯片的技术路线：“华山”专注AI训推一体与超大规模智能计算，“庐山”专攻高性能图形渲染 [4] - 公司正式发布夸娥万卡智算集群，具备全精度、全功能通用计算能力，在万卡规模下能实现高效稳定的AI训练与推理 [5] 产品性能与特性 - “花港”GPU架构基于新一代指令集，算力密度提升50%，支持从FP4到FP64的全精度端到端计算，新增MTFP6/MTFP4及混合低精度支持 [3] - “花港”架构集成新一代异步编程模型，并通过自研MTLink高速互联技术，支持十万卡以上规模智算集群扩展 [3] - “花港”架构内置AI生成式渲染架构，增强硬件光线追踪加速引擎，完整支持DirectX 12 Ultimate [3] - 未来芯片“庐山”的AI计算性能提升64倍，几何处理性能提升16倍，光线追踪性能提升50倍，并显著增强纹理填充、原子访存能力及显存容量 [4] - 夸娥万卡智算集群浮点运算能力达到10Exa-Flops，训练算力利用率在Dense大模型上达60%，在MOE大模型上达40%，有效训练时间占比超过90%，训练线性扩展效率达95% [5] 行业动态与竞争 - 在摩尔线程开发者大会前，中科曙光在光合组织2025人工智能创新技术大会上发布了曙光scaleX万卡超集群系统，这是国产万卡级算力集群首次以真机形式公开亮相 [6] - 中科曙光的scaleX万卡超集群在超节点架构、高速互连网络等方面实现了多项创新突破，部分技术与能力据称已超越英伟达研发路线图的2027年NVL576里程节点 [6] 公司前瞻性布局 - 摩尔线程已发布MT Lambda具身智能仿真训练平台，深度融合物理、渲染与AI三大引擎，构建了开发、仿真、训练的高效统一环境 [6] - 公司推出基于智能SoC芯片“长江”、AI模组MTT E300和夸娥智算集群“端云结合”的MT Robot具身智能解决方案 [6]

中国基金报· 2025-12-20 16:54

核心观点 - 摩尔线程在首届MUSA开发者大会上发布了新一代GPU架构“花港”及未来芯片路线，并推出夸娥万卡智算集群，展示了其在全栈GPU技术和AI算力基础设施领域的全面突破 [2][4][6] 新一代GPU架构“花港” - 架构基于公司自主研发的MUSA统一计算架构，是其覆盖芯片到软件的全栈技术体系的战略基石 [4] - 计算性能显著提升：基于新一代指令集，算力密度提升50%，能效大幅优化，并支持从FP4到FP64的全精度端到端计算 [4] - 集成新一代异步编程模型，并通过自研MTLink高速互联技术，支持十万卡以上规模智算集群扩展 [4] - 图形与AI深度融合：内置AI生成式渲染架构，增强硬件光线追踪加速引擎，完整支持DirectX 12 Ultimate [4] 未来芯片技术路线 - 基于“花港”架构，公司公布了两款未来芯片：“华山”与“庐山” [5] - “华山”芯片专注AI训推一体与超大规模智能计算，旨在为万卡级智算集群提供算力支撑，构建下一代“AI工厂” [5] - “庐山”芯片专攻高性能图形渲染，其AI计算性能提升64倍，几何处理性能提升16倍，光线追踪性能提升50倍，并显著增强纹理填充、原子访存能力及显存容量 [5] 夸娥万卡智算集群 - 该集群具备全精度、全功能通用计算能力，在万卡规模下能实现高效稳定的AI训练与推理 [7] - 核心性能指标：浮点运算能力达到10 Exa-Flops，训练算力利用率在Dense大模型上达60%，在MOE大模型上达40%，有效训练时间占比超过90%，训练线性扩展效率达95% [7] - 集群与国际主流生态高度兼容，并在多项指标上具备显著能效优势 [7] 行业动态与前瞻布局 - 在摩尔线程发布产品前，中科曙光已于12月18日以真机形式公开亮相其国产万卡级算力集群“scaleX万卡超集群”，据称部分技术与能力已超越英伟达2027年路线图的NVL576里程节点 [8] - 摩尔线程已展开前瞻性布局，包括发布MT Lambda具身智能仿真训练平台，深度融合物理、渲染与AI三大引擎 [8] - 公司推出基于智能SoC芯片“长江”、AI模组MTT E300和夸娥智算集群的“端云结合”MT Robot具身智能解决方案 [8]

中国基金报· 2025-12-20 16:50

核心观点 - 摩尔线程在首届MUSA开发者大会上发布了新一代GPU架构“花港”及未来芯片路线图，并推出夸娥万卡智算集群，展示了其在全栈GPU技术和AI算力基础设施方面的进展 [1][2][4] - 公司同时布局具身智能等前沿领域，发布了MT Lambda仿真训练平台和MT Robot解决方案 [5][6] - 行业层面，中科曙光同期展示了国产万卡级算力集群真机，表明国产高端算力集群已进入实际部署和竞争阶段 [5] 技术架构与产品发布 - 公司发布了自主研发的元计算统一架构MUSA，作为覆盖芯片到软件的全栈技术体系战略基石 [2] - 基于MUSA，公司揭晓了新一代全功能GPU架构“花港”，在计算密度、能效、精度和互联等方面实现突破 [2] - “花港”架构核心特性包括：算力密度提升50%，支持FP4到FP64全精度计算，新增MTFP6/MTFP4低精度支持 [2] - 架构集成新一代异步编程模型，并通过自研MTLink技术支持十万卡以上规模智算集群扩展 [2] - 架构内置AI生成式渲染，增强硬件光线追踪，完整支持DirectX 12 Ultimate，实现图形与AI计算协同 [2] 未来芯片路线图 - 基于“花港”架构，公司公布了两款未来芯片：“华山”和“庐山” [3] - “华山”芯片专注AI训推一体与超大规模智能计算，旨在为万卡级智算集群提供算力底座 [3] - “庐山”芯片专攻高性能图形渲染，其AI计算性能提升64倍，几何处理性能提升16倍，光线追踪性能提升50倍，并增强纹理填充和显存容量 [3] 算力集群发布 - 公司正式发布了夸娥万卡智算集群，具备全精度、全功能通用计算能力 [4] - 该集群在万卡规模下可实现高效稳定的AI训练与推理 [4] - 集群核心性能指标包括：浮点运算能力达10 Exa-Flops，在Dense大模型上训练算力利用率达60%，在MOE大模型上达40%，有效训练时间占比超90%，训练线性扩展效率达95% [4] - 集群与国际主流生态高度兼容，并具备显著能效优势 [4] - 值得注意的是，公司未在现场展示上述产品实物 [5] 行业动态与竞争 - 在中科曙光的光合组织2025大会上，曙光scaleX万卡超集群系统以真机形式公开亮相，这是国产万卡级算力集群首次真机亮相 [5] - 曙光scaleX在超节点架构、高速互连网络、存储性能优化、系统管理调度等方面实现多项创新突破 [5] - 曙光部分技术与能力据称已超越英伟达研发路线图的2027年NVL576里程节点 [5] 前瞻性业务布局 - 公司发布了MT Lambda具身智能仿真训练平台，深度融合物理、渲染与AI三大引擎，构建开发、仿真、训练的统一环境 [5] - 公司推出了MT Robot具身智能解决方案，该方案基于智能SoC芯片“长江”、AI模组MTT E300和夸娥智算集群，实现“端云结合” [6]

算力内卷时代，“开放架构”万卡超集群为何成刚需？

犀牛财经· 2025-12-20 12:47

行业背景与需求 - AI大模型研发门槛极高，需要庞大的算力支持，例如打造ChatGPT级别的大模型至少需要1万枚英伟达H100加速卡[1] - 随着ChatGPT、文生视频等AI应用普及，各行业算力需求呈指数级增长，IDC预测到2028年中国智能算力需求将达到2781 EFLOPS，年均增长率高达46.2%[1] - 传统计算集群在规模扩大到数千张卡后，会遇到通信延迟高、并行效率低、能耗成本急剧攀升等难以逾越的瓶颈[1][6] - 截至2025年6月，中国生成式AI用户规模达5.15亿人，较2024年12月增长2.66亿人，用户规模半年翻番，普及率达36.5%，其中超过三分之二（67.7%）的用户每天都会使用AI生成[6] 公司产品发布 - 2025年12月18日，在光合组织2025人工智能创新技术大会（HAIC2025）上，中科曙光发布了曙光scaleX万卡超集群系统[3] - 该系统是国产万卡级超集群真机的首秀，由16个超节点通过自主研发高速网络连接而成，可支持10240张AI加速卡协同工作[5] - 该系统面向万亿参数大模型、科学智能等复杂任务场景打造，在超节点架构、高速互连网络、存储性能优化、系统管理调度等方面实现多项创新突破，部分技术与能力已超越海外将于2027年推出的NVL576[3] 产品技术优势 - **超高密度与能效**：全球首创单机柜级640卡超节点，采用超高密度刀片、浸没相变液冷等技术，将单机柜算力密度提升20倍，PUE值低至1.04，总算力规模超5 EFlops[6] - **高速互连网络**：采用自主研发的scaleFabric网络，基于国内首款400G类InfiniBand的原生RDMA网卡与交换芯片，实现400Gb/s超高带宽、低于1微秒端侧通信延迟，相比传统IB网络性能提升2.33倍，同时网络总体成本降低30%，并可轻松将集群规模扩展至10万卡以上[9] - **系统级协同优化**：通过“超级隧道”、AI数据加速等设计，实现芯片级、系统级到应用级的三级数据传输协同优化，可将AI加速卡资源利用率提高55%[9] - **智能运维与调度**：通过物理集群数字孪生实现可视化智能管理，智能化运维平台支撑集群长期可用性达99.99%，智能调度引擎可管理万级节点、服务十万级用户，支持每秒万级作业调度[9] 开放架构与生态战略 - scaleX万卡超集群作为“AI计算开放架构”的最新成果，可支持多品牌加速卡以及主流计算生态，并实现了对400+主流大模型、世界模型的适配优化[10] - “AI计算开放架构”由中科曙光协同20多家AI产业链企业共同推出，旨在共享关键共性技术能力，通过系统工程思维推进智算集群创新[10] - 这种“类安卓”的开放模式给予用户更大选择权，避免单一厂商技术锁定，同时积极兼容主流AI开发框架，推动国产软硬件生态适配，降低了开发者和应用迁移门槛[12] - 开放架构有助于解决芯片与基础软件协同、模型-硬件适配优化等难题，破解“硬件墙”“生态墙”壁垒，让算力资源更加“普惠化”[12] 产品意义与价值 - 曙光万卡超集群的发布标志着国产大规模算力集群技术进入新阶段[5] - 其价值体现了从硬件堆叠到系统级协同的范式转变，通过开放架构和软硬一体化设计，让大规模算力从“昂贵奢侈品”逐渐走向“可规模化部署的公共服务”[13] - 该产品为国内AI产业生态的自主演进提供了关键支撑，其强大性能将推动大模型训练与推理、科学智能、数字孪生与智能制造、金融赋能等应用场景的创新[12][13]