Workflow
曙光scaleX万卡超集群系统
icon
搜索文档
摩尔线程 突发大消息!
中国基金报· 2025-12-20 21:32
公司技术发布 - 摩尔线程召开首届MUSA开发者大会,展示了以自主MUSA统一架构为核心的全栈技术成果 [2] - 公司揭晓新一代全功能GPU架构“花港”,在计算密度、能效、精度支持、互联能力及图形技术等方面实现全面突破 [3] - 基于“花港”架构,公司公布了两款未来芯片的技术路线:“华山”专注AI训推一体与超大规模智能计算,“庐山”专攻高性能图形渲染 [4] - 公司正式发布夸娥万卡智算集群,具备全精度、全功能通用计算能力,在万卡规模下能实现高效稳定的AI训练与推理 [5] 产品性能与特性 - “花港”GPU架构基于新一代指令集,算力密度提升50%,支持从FP4到FP64的全精度端到端计算,新增MTFP6/MTFP4及混合低精度支持 [3] - “花港”架构集成新一代异步编程模型,并通过自研MTLink高速互联技术,支持十万卡以上规模智算集群扩展 [3] - “花港”架构内置AI生成式渲染架构,增强硬件光线追踪加速引擎,完整支持DirectX 12 Ultimate [3] - 未来芯片“庐山”的AI计算性能提升64倍,几何处理性能提升16倍,光线追踪性能提升50倍,并显著增强纹理填充、原子访存能力及显存容量 [4] - 夸娥万卡智算集群浮点运算能力达到10Exa-Flops,训练算力利用率在Dense大模型上达60%,在MOE大模型上达40%,有效训练时间占比超过90%,训练线性扩展效率达95% [5] 行业动态与竞争 - 在摩尔线程开发者大会前,中科曙光在光合组织2025人工智能创新技术大会上发布了曙光scaleX万卡超集群系统,这是国产万卡级算力集群首次以真机形式公开亮相 [6] - 中科曙光的scaleX万卡超集群在超节点架构、高速互连网络等方面实现了多项创新突破,部分技术与能力据称已超越英伟达研发路线图的2027年NVL576里程节点 [6] 公司前瞻性布局 - 摩尔线程已发布MT Lambda具身智能仿真训练平台,深度融合物理、渲染与AI三大引擎,构建了开发、仿真、训练的高效统一环境 [6] - 公司推出基于智能SoC芯片“长江”、AI模组MTT E300和夸娥智算集群“端云结合”的MT Robot具身智能解决方案 [6]
摩尔线程,突发大消息!
中国基金报· 2025-12-20 16:54
核心观点 - 摩尔线程在首届MUSA开发者大会上发布了新一代GPU架构“花港”及未来芯片路线,并推出夸娥万卡智算集群,展示了其在全栈GPU技术和AI算力基础设施领域的全面突破 [2][4][6] 新一代GPU架构“花港” - 架构基于公司自主研发的MUSA统一计算架构,是其覆盖芯片到软件的全栈技术体系的战略基石 [4] - 计算性能显著提升:基于新一代指令集,算力密度提升50%,能效大幅优化,并支持从FP4到FP64的全精度端到端计算 [4] - 集成新一代异步编程模型,并通过自研MTLink高速互联技术,支持十万卡以上规模智算集群扩展 [4] - 图形与AI深度融合:内置AI生成式渲染架构,增强硬件光线追踪加速引擎,完整支持DirectX 12 Ultimate [4] 未来芯片技术路线 - 基于“花港”架构,公司公布了两款未来芯片:“华山”与“庐山” [5] - “华山”芯片专注AI训推一体与超大规模智能计算,旨在为万卡级智算集群提供算力支撑,构建下一代“AI工厂” [5] - “庐山”芯片专攻高性能图形渲染,其AI计算性能提升64倍,几何处理性能提升16倍,光线追踪性能提升50倍,并显著增强纹理填充、原子访存能力及显存容量 [5] 夸娥万卡智算集群 - 该集群具备全精度、全功能通用计算能力,在万卡规模下能实现高效稳定的AI训练与推理 [7] - 核心性能指标:浮点运算能力达到10 Exa-Flops,训练算力利用率在Dense大模型上达60%,在MOE大模型上达40%,有效训练时间占比超过90%,训练线性扩展效率达95% [7] - 集群与国际主流生态高度兼容,并在多项指标上具备显著能效优势 [7] 行业动态与前瞻布局 - 在摩尔线程发布产品前,中科曙光已于12月18日以真机形式公开亮相其国产万卡级算力集群“scaleX万卡超集群”,据称部分技术与能力已超越英伟达2027年路线图的NVL576里程节点 [8] - 摩尔线程已展开前瞻性布局,包括发布MT Lambda具身智能仿真训练平台,深度融合物理、渲染与AI三大引擎 [8] - 公司推出基于智能SoC芯片“长江”、AI模组MTT E300和夸娥智算集群的“端云结合”MT Robot具身智能解决方案 [8]
摩尔线程,突发大消息!
中国基金报· 2025-12-20 16:50
核心观点 - 摩尔线程在首届MUSA开发者大会上发布了新一代GPU架构“花港”及未来芯片路线图,并推出夸娥万卡智算集群,展示了其在全栈GPU技术和AI算力基础设施方面的进展 [1][2][4] - 公司同时布局具身智能等前沿领域,发布了MT Lambda仿真训练平台和MT Robot解决方案 [5][6] - 行业层面,中科曙光同期展示了国产万卡级算力集群真机,表明国产高端算力集群已进入实际部署和竞争阶段 [5] 技术架构与产品发布 - 公司发布了自主研发的元计算统一架构MUSA,作为覆盖芯片到软件的全栈技术体系战略基石 [2] - 基于MUSA,公司揭晓了新一代全功能GPU架构“花港”,在计算密度、能效、精度和互联等方面实现突破 [2] - “花港”架构核心特性包括:算力密度提升50%,支持FP4到FP64全精度计算,新增MTFP6/MTFP4低精度支持 [2] - 架构集成新一代异步编程模型,并通过自研MTLink技术支持十万卡以上规模智算集群扩展 [2] - 架构内置AI生成式渲染,增强硬件光线追踪,完整支持DirectX 12 Ultimate,实现图形与AI计算协同 [2] 未来芯片路线图 - 基于“花港”架构,公司公布了两款未来芯片:“华山”和“庐山” [3] - “华山”芯片专注AI训推一体与超大规模智能计算,旨在为万卡级智算集群提供算力底座 [3] - “庐山”芯片专攻高性能图形渲染,其AI计算性能提升64倍,几何处理性能提升16倍,光线追踪性能提升50倍,并增强纹理填充和显存容量 [3] 算力集群发布 - 公司正式发布了夸娥万卡智算集群,具备全精度、全功能通用计算能力 [4] - 该集群在万卡规模下可实现高效稳定的AI训练与推理 [4] - 集群核心性能指标包括:浮点运算能力达10 Exa-Flops,在Dense大模型上训练算力利用率达60%,在MOE大模型上达40%,有效训练时间占比超90%,训练线性扩展效率达95% [4] - 集群与国际主流生态高度兼容,并具备显著能效优势 [4] - 值得注意的是,公司未在现场展示上述产品实物 [5] 行业动态与竞争 - 在中科曙光的光合组织2025大会上,曙光scaleX万卡超集群系统以真机形式公开亮相,这是国产万卡级算力集群首次真机亮相 [5] - 曙光scaleX在超节点架构、高速互连网络、存储性能优化、系统管理调度等方面实现多项创新突破 [5] - 曙光部分技术与能力据称已超越英伟达研发路线图的2027年NVL576里程节点 [5] 前瞻性业务布局 - 公司发布了MT Lambda具身智能仿真训练平台,深度融合物理、渲染与AI三大引擎,构建开发、仿真、训练的统一环境 [5] - 公司推出了MT Robot具身智能解决方案,该方案基于智能SoC芯片“长江”、AI模组MTT E300和夸娥智算集群,实现“端云结合” [6]
算力内卷时代,“开放架构”万卡超集群为何成刚需?
犀牛财经· 2025-12-20 12:47
行业背景与需求 - AI大模型研发门槛极高,需要庞大的算力支持,例如打造ChatGPT级别的大模型至少需要1万枚英伟达H100加速卡[1] - 随着ChatGPT、文生视频等AI应用普及,各行业算力需求呈指数级增长,IDC预测到2028年中国智能算力需求将达到2781 EFLOPS,年均增长率高达46.2%[1] - 传统计算集群在规模扩大到数千张卡后,会遇到通信延迟高、并行效率低、能耗成本急剧攀升等难以逾越的瓶颈[1][6] - 截至2025年6月,中国生成式AI用户规模达5.15亿人,较2024年12月增长2.66亿人,用户规模半年翻番,普及率达36.5%,其中超过三分之二(67.7%)的用户每天都会使用AI生成[6] 公司产品发布 - 2025年12月18日,在光合组织2025人工智能创新技术大会(HAIC2025)上,中科曙光发布了曙光scaleX万卡超集群系统[3] - 该系统是国产万卡级超集群真机的首秀,由16个超节点通过自主研发高速网络连接而成,可支持10240张AI加速卡协同工作[5] - 该系统面向万亿参数大模型、科学智能等复杂任务场景打造,在超节点架构、高速互连网络、存储性能优化、系统管理调度等方面实现多项创新突破,部分技术与能力已超越海外将于2027年推出的NVL576[3] 产品技术优势 - **超高密度与能效**:全球首创单机柜级640卡超节点,采用超高密度刀片、浸没相变液冷等技术,将单机柜算力密度提升20倍,PUE值低至1.04,总算力规模超5 EFlops[6] - **高速互连网络**:采用自主研发的scaleFabric网络,基于国内首款400G类InfiniBand的原生RDMA网卡与交换芯片,实现400Gb/s超高带宽、低于1微秒端侧通信延迟,相比传统IB网络性能提升2.33倍,同时网络总体成本降低30%,并可轻松将集群规模扩展至10万卡以上[9] - **系统级协同优化**:通过“超级隧道”、AI数据加速等设计,实现芯片级、系统级到应用级的三级数据传输协同优化,可将AI加速卡资源利用率提高55%[9] - **智能运维与调度**:通过物理集群数字孪生实现可视化智能管理,智能化运维平台支撑集群长期可用性达99.99%,智能调度引擎可管理万级节点、服务十万级用户,支持每秒万级作业调度[9] 开放架构与生态战略 - scaleX万卡超集群作为“AI计算开放架构”的最新成果,可支持多品牌加速卡以及主流计算生态,并实现了对400+主流大模型、世界模型的适配优化[10] - “AI计算开放架构”由中科曙光协同20多家AI产业链企业共同推出,旨在共享关键共性技术能力,通过系统工程思维推进智算集群创新[10] - 这种“类安卓”的开放模式给予用户更大选择权,避免单一厂商技术锁定,同时积极兼容主流AI开发框架,推动国产软硬件生态适配,降低了开发者和应用迁移门槛[12] - 开放架构有助于解决芯片与基础软件协同、模型-硬件适配优化等难题,破解“硬件墙”“生态墙”壁垒,让算力资源更加“普惠化”[12] 产品意义与价值 - 曙光万卡超集群的发布标志着国产大规模算力集群技术进入新阶段[5] - 其价值体现了从硬件堆叠到系统级协同的范式转变,通过开放架构和软硬一体化设计,让大规模算力从“昂贵奢侈品”逐渐走向“可规模化部署的公共服务”[13] - 该产品为国内AI产业生态的自主演进提供了关键支撑,其强大性能将推动大模型训练与推理、科学智能、数字孪生与智能制造、金融赋能等应用场景的创新[12][13]