摩尔线程,发布新一代GPU架构

核心观点 - 摩尔线程在登陆科创板后举办首届开发者大会,展示了其基于自研MUSA统一架构的全栈技术成果,并发布了下一代GPU架构“花港”及多款芯片产品,旨在通过架构创新弥补工艺限制,提升国产GPU在AI和高性能图形计算领域的竞争力 [1][2] 技术架构与芯片发布 - 发布新一代全功能GPU架构“花港”,通过全新指令集和异步编程模型实现“工艺不够,架构来补”,在相同工艺下算力密度提升50%,效能提升10倍,支持从FP4到FP64的全精度计算 [1][2] - 基于“花港”架构推出“华山”芯片,面向AI训推一体与超大规模智能计算,其浮点算力、访存带宽、高速互联带宽介于英伟达Blackwell和Hopper架构之间,访存容量优于两者 [4][5] - 同步发布“庐山”芯片,侧重高性能图形渲染,其AI计算性能提升64倍,几何处理性能提升16倍,光线追踪性能提升50倍,并增强了纹理填充和显存容量 [5] - 发布面向端侧的“长江”SoC芯片,集成于MTT AIBOOK笔记本电脑,端侧AI算力为50 TOPS,并预告了迷你计算设备MTT AICube [9] 智算集群与工程化能力 - 发布“夸娥”万卡智算集群,浮点运算能力达到10 Exa-Flops [5] - 该集群在万卡规模下,对Dense大模型的训练算力利用率(MFU)为60%,对MoE大模型的算力利用率为40%,有效训练时间占比超过90%,训练线性扩展效率为95% [5] - 在推理性能实测中,与硅基流动合作优化DeepSeek R1 671B全量模型,MTT S5000单卡的Prefill吞吐超过4000 tokens/s,Decode吞吐超过1000 tokens/s [5] 软件生态与开发者支持 - 升级MUSA统一计算架构至5.0版本,其核心计算库muDNN的GEMM和FlashAttention效率超过98%,通信效率达到97%,编译器性能提升3倍 [8] - 计划逐步开源计算加速库、通信库及系统管理框架等核心组件,并披露了兼容跨代GPU的中间语言MTX、量子计算融合框架MUSA-Q及计算光刻库muLitho等前瞻技术 [8] - 宣布建设MUSA生态中心并启动开发者计划,为科研与创新提供算力支持 [10] 图形技术与前沿领域布局 - 图形技术已支持DirectX 12、OpenGL 4.6、Vulkan 1.3等主流API,并与国产CPU及操作系统完成适配,即将完整支持DirectX 12 Ultimate [10] - 推出AI生成式渲染技术MTAGR 1.0,尝试将渲染范式从计算转向生成 [10] - 在具身智能领域发布MT Lambda仿真训练平台,并计划在2026年第一季度开源关键仿真加速组件Mujoco-warp-MUSA [10] - 提及在科学智能(AI4S)、量子科技、AI for 6G等前沿交叉领域的布局 [10] 公司发展历程与市场表现 - 公司成立于2020年10月,核心团队包括原英伟达中国区总经理张建中及CTO张钰勃,技术路线对标英伟达的通用GPU路径 [11] - 过去四年保持每年迭代一个芯片架构的节奏:2022年“苏堤”架构解决信创PC GPU国产化;2023年“春晓”架构带来量产游戏显卡和云端渲染芯片;2024年“曲院”架构开启AI训推一体并实现千卡集群;今年基于“平湖”架构的S5000已建成万卡智算集群 [8] - 公司于12月5日以114.28元/股登陆科创板,截至12月19日收盘,股价累计涨幅达481%,报664.10元/股,市值约为3121.46亿元 [11] 行业背景 - 受国际环境对高端芯片进口限制的影响,国产AI芯片行业受到资本市场大力追捧,市场空间有所增长 [11]

摩尔线程,发布新一代GPU架构 - Reportify