元计算
搜索文档
摩尔线程,发布新一代GPU架构
21世纪经济报道· 2025-12-20 21:32
核心观点 - 摩尔线程在登陆科创板后举办首届开发者大会,展示了其基于自研MUSA统一架构的全栈技术成果,并发布了下一代GPU架构“花港”及多款芯片产品,旨在通过架构创新弥补工艺限制,提升国产GPU在AI和高性能图形计算领域的竞争力 [1][2] 技术架构与芯片发布 - 发布新一代全功能GPU架构“花港”,通过全新指令集和异步编程模型实现“工艺不够,架构来补”,在相同工艺下算力密度提升50%,效能提升10倍,支持从FP4到FP64的全精度计算 [1][2] - 基于“花港”架构推出“华山”芯片,面向AI训推一体与超大规模智能计算,其浮点算力、访存带宽、高速互联带宽介于英伟达Blackwell和Hopper架构之间,访存容量优于两者 [4][5] - 同步发布“庐山”芯片,侧重高性能图形渲染,其AI计算性能提升64倍,几何处理性能提升16倍,光线追踪性能提升50倍,并增强了纹理填充和显存容量 [5] - 发布面向端侧的“长江”SoC芯片,集成于MTT AIBOOK笔记本电脑,端侧AI算力为50 TOPS,并预告了迷你计算设备MTT AICube [9] 智算集群与工程化能力 - 发布“夸娥”万卡智算集群,浮点运算能力达到10 Exa-Flops [5] - 该集群在万卡规模下,对Dense大模型的训练算力利用率(MFU)为60%,对MoE大模型的算力利用率为40%,有效训练时间占比超过90%,训练线性扩展效率为95% [5] - 在推理性能实测中,与硅基流动合作优化DeepSeek R1 671B全量模型,MTT S5000单卡的Prefill吞吐超过4000 tokens/s,Decode吞吐超过1000 tokens/s [5] 软件生态与开发者支持 - 升级MUSA统一计算架构至5.0版本,其核心计算库muDNN的GEMM和FlashAttention效率超过98%,通信效率达到97%,编译器性能提升3倍 [8] - 计划逐步开源计算加速库、通信库及系统管理框架等核心组件,并披露了兼容跨代GPU的中间语言MTX、量子计算融合框架MUSA-Q及计算光刻库muLitho等前瞻技术 [8] - 宣布建设MUSA生态中心并启动开发者计划,为科研与创新提供算力支持 [10] 图形技术与前沿领域布局 - 图形技术已支持DirectX 12、OpenGL 4.6、Vulkan 1.3等主流API,并与国产CPU及操作系统完成适配,即将完整支持DirectX 12 Ultimate [10] - 推出AI生成式渲染技术MTAGR 1.0,尝试将渲染范式从计算转向生成 [10] - 在具身智能领域发布MT Lambda仿真训练平台,并计划在2026年第一季度开源关键仿真加速组件Mujoco-warp-MUSA [10] - 提及在科学智能(AI4S)、量子科技、AI for 6G等前沿交叉领域的布局 [10] 公司发展历程与市场表现 - 公司成立于2020年10月,核心团队包括原英伟达中国区总经理张建中及CTO张钰勃,技术路线对标英伟达的通用GPU路径 [11] - 过去四年保持每年迭代一个芯片架构的节奏:2022年“苏堤”架构解决信创PC GPU国产化;2023年“春晓”架构带来量产游戏显卡和云端渲染芯片;2024年“曲院”架构开启AI训推一体并实现千卡集群;今年基于“平湖”架构的S5000已建成万卡智算集群 [8] - 公司于12月5日以114.28元/股登陆科创板,截至12月19日收盘,股价累计涨幅达481%,报664.10元/股,市值约为3121.46亿元 [11] 行业背景 - 受国际环境对高端芯片进口限制的影响,国产AI芯片行业受到资本市场大力追捧,市场空间有所增长 [11]
摩尔线程发布“花港”架构,力推国产万卡智算生态
21世纪经济报道· 2025-12-20 17:47
核心观点 - 摩尔线程在首届MUSA开发者大会上发布了下一代全功能GPU架构“花港”及基于该架构的多款芯片与产品,旨在通过架构创新提升算力密度与效能,并展示了其在万卡智算集群、软件生态及前沿技术领域的全面布局,以推动国产GPU生态发展 [1][2][4] 公司技术发布与产品 - 发布新一代全功能GPU架构“花港”,采用新指令集与异步编程模型,在相同工艺下算力密度提升50%,效能提升10倍,支持从FP4到FP64全精度计算,并通过自研MTLink技术支持十万卡以上智算集群扩展,单个节点支持1024卡 [1][2] - 基于“花港”架构推出“华山”芯片,面向AI训推一体与超大规模智能计算,其浮点算力、访存带宽、高速互联带宽指标介于英伟达Blackwell与Hopper架构之间,访存容量优于两者 [4] - 基于“花港”架构同步推出“庐山”芯片,侧重高性能图形渲染,其AI计算性能提升64倍,几何处理性能提升16倍,光线追踪性能提升50倍,并增强了纹理填充和显存容量 [4] - 发布“夸娥”万卡智算集群,浮点运算能力达10 Exa-Flops,在万卡规模下对Dense大模型训练算力利用率(MFU)为60%,对MoE大模型算力利用率为40%,有效训练时间占比超90%,训练线性扩展效率为95% [4] - 在推理性能实测中,与硅基流动合作优化DeepSeek R1 671B全量模型,MTT S5000单卡Prefill吞吐超4000 tokens/s,Decode吞吐超1000 tokens/s [4] - 发布搭载自研“长江”SoC芯片的MTT AIBOOK笔记本电脑,端侧AI算力为50 TOPS,并预告了基于同一SoC的迷你计算设备MTT AICube [7] - 在图形技术领域,公司支持主流API并完成国产适配,即将完整支持DirectX 12 Ultimate,推出AI生成式渲染技术MTAGR 1.0,并发布具身智能仿真训练平台MT Lambda,计划于2026年Q1开源关键仿真加速组件 [8] 公司软件生态与研发进展 - 升级MUSA统一计算架构至5.0版本,其核心计算库muDNN的GEMM和FlashAttention效率超98%,通信效率达97%,编译器性能提升3倍,并计划逐步开源计算加速库、通信库及系统管理框架等核心组件 [7] - 披露了兼容跨代GPU指令架构的中间语言MTX、量子计算融合框架MUSA-Q以及计算光刻库muLitho等前瞻技术 [7] - 公司提及在科学智能(AI4S)、量子科技、AI for 6G等前沿交叉领域的布局,并宣布建设MUSA生态中心,启动开发者计划 [8] 公司发展历程与市场表现 - 公司过去四年保持每年迭代一个芯片架构的节奏:2022年“苏堤”架构解决信创PC GPU国产化;2023年“春晓”架构带来量产游戏显卡S80和云端渲染芯片S3000;2024年“曲院”架构S4000开启AI训推一体并实现千卡集群;今年基于“平湖”架构的S5000已建成万卡智算集群 [6][7] - 公司于2020年10月成立,核心团队包括原英伟达中国区总经理张建中及CTO张钰勃,技术路线对标英伟达通用GPU路径 [9] - 公司于12月5日以114.28元/股登陆科创板,截至12月19日收盘,股价累计涨幅达481%,报664.10元/股,市值约3121.46亿元 [9] 行业背景与机遇 - 受国际环境对高端芯片进口限制影响,国产AI芯片市场空间有所增长,行业受到资本市场大力追捧 [9]