新一代GPU架构与芯片发布 - 摩尔线程发布新一代全功能GPU架构“花港”,基于新一代指令集,算力密度提升50%,支持从FP4到FP64的全精度端到端计算,新增MTFP6/MTFP4及混合低精度支持,集成新一代异步编程模型,并支持通过自研MTLink高速互联技术实现十万卡以上规模智算集群扩展[1][4] - 基于“花港”架构,公司公布两款芯片技术路线:专注AI训推一体的“华山”芯片,为万卡级智算集群提供算力支撑;专攻高性能图形渲染的“庐山”芯片,其AI计算性能提升64倍,几何处理性能提升16倍,光线追踪性能提升50倍[1][5][7] - 公司正式发布夸娥万卡智算集群,其浮点运算能力为10Exa-Flops,在Dense大模型上训练算力利用率达60%,在MOE大模型上达40%,有效训练时间占比超过90%,训练线性扩展效率达95%[7] 新产品与解决方案 - 公司推出夸娥万卡智算集群、MT Lambda具身智能仿真训练平台以及基于“端云结合”的MT Robot具身智能解决方案,并宣布将于2026年第一季度开源关键仿真加速组件Mujoco-warp-MUSA[7][9] - 公司发布面向开发者的AI算力本MTT AIBOOK,搭载自研“长江”智能SoC,提供高达50TOPS的端侧AI算力,同时预告了基于“长江”SoC打造的迷你型计算设备MTT AICube[9] - 公司公布MTT C256超节点的架构规划,该产品采用计算与交换一体化的高密设计,旨在系统性提升万卡集群的训练效能与推理能力[11] - 当虹科技、中望软件、中控技术等多家科创板上市公司与摩尔线程开展合作,涉及多模态空间大模型、时间序列大模型适配及全栈国产化三维CAD一体化解决方案[3] 软件生态与开发者战略 - 公司将MUSA软件架构升级到5.0版本,兼容TileLang、Triton等编程语言,核心计算库muDNN实现GEMM/FlashAttention效率超98%,通信效率为97%,编译器性能提升3倍,并计划逐步开源计算加速库、通信库及系统管理框架在内的核心组件[12] - 公司即将推出兼容跨代GPU指令架构的中间语言MTX、面向渲染+AI融合计算的编程语言muLang、量子计算融合框架MUSA-Q以及计算光刻库muLitho[12] - 行业专家指出,国产GPU芯片要实现生态自立,关键在于解决迁移成本高、工具链不成熟、文档/社区与支持不足等问题,实现从“能用”到“愿用”的转变,开发者是生态的核心资源[10][12] - 针对国产AI芯片软件生态存在的“内卷”与碎片化问题,专家呼吁建立统一或高度兼容的接口标准,通过产业联盟推动联合优化,并在关键基础软件上形成共享的开放底座[13] 大规模智算集群的发展与挑战 - 行业观点认为,从主权AI基建角度,“万卡甚至十万卡集群”是必选项,因为模型时代的基本单位是集群总算力,预训练超大规模模型、服务国民级推理需求需要持续可用的万卡级训练集群[14] - 构建大规模集群的主要工程挑战包括:基于以太网等通用网络实现All-Reduce与低延迟通信、提升可靠性与运维能力以应对单点故障常态、以及满足百兆瓦级电力需求所需的机房与园区级综合设计[14] - 国产集群实践表明,在“通用网络+自研通信库+软硬件”协同设计下,可以构建“可用”的大规模系统,但这需要长期持续的工程投入[14]
摩尔线程新一代GPU架构“花港”发布,支持十万卡智算集群扩展