摩尔线程的野心,不藏了
量子位·2025-12-21 22:13

核心观点 - 摩尔线程在上市后迅速召开首届全功能GPU开发者大会,围绕其自主研发的MUSA架构,发布了一系列从云到端、从算力到生态的新产品与技术,标志着国产GPU能力进入新阶段[1][2][4] MUSA全功能GPU架构 - MUSA是公司自主研发的元计算统一系统架构,定义了从芯片设计到软件生态的统一技术标准,支持AI计算、图形渲染、物理仿真、科学计算及视频编解码等全场景高性能计算[6][7][10] - 发布第五代全功能GPU架构“花港”,在同等芯片面积下算力密度提升50%,计算能效提升10倍,并新增对FP4/FP6低精度计算及混合低精度端到端加速技术的支持,专为AI低比特训练与推理优化[8][13][17] - 花港架构原生支持矩阵rowmax计算以提升混合精度SIMT吞吐量,内置在线量化/反量化、随机舍入等硬件加速能力,为下一代Transformer引擎提供底层支撑[13] - 架构支持通过MTLink高速互联构建十万卡集群,为超大规模模型训练铺平道路[17] 软件栈与开发生态 - 同步推出MUSA软件栈5.0,构建从编译器、算子库到AI框架的全栈工具链,并宣布将逐步开源MATE算子库、MUTLASS、MT DeepEP通信库、KUAE云原生工具包等核心组件[16] - 软件生态广泛适配主流AI框架,除PyTorch、PaddlePaddle外新增对JAX、TensorFlow的支持,并新增强化学习训练框架MT VeRL[18] - 推理引擎深度优化自研MTT推理引擎与TensorX,同时适配SGLang、vLLM、Ollama等新兴推理框架[18] - 核心库muDNN实现GEMM/FlashAttention效率超98%,通信效率达97%,编译器性能提升3倍[18] - 推出面向AI+渲染融合的编程语言muLang,兼容TileLang、Triton,原生支持MUSA C,并发布GPU中间表示语言MTX 1.0以提升开发者调优自由度[18] - 公司打造“摩尔学院”作为开发者成长平台,截至2025年12月已汇聚20万名开发者,目标培育百万规模社群,并通过走进全国200所高校进行产教融合[59][61] 新产品发布:芯片 - 基于花港架构发布两款芯片路线:聚焦AI训推一体及高性能计算的GPU“华山”,以及专为图形计算而生的GPU“庐山”[21][22][28] - “华山”GPU全精度支持从FP4到FP64,具备MTFP4/MTFP6混合低精度加速能力,硬件级优化专为大模型训练定制,标志着公司正式具备支撑万亿参数大模型训练的能力[25][27] - “庐山”GPU引入AI生成式渲染架构和硬件光追引擎,支持DirectX 12 Ultimate,相比上一代产品AI计算性能提升64倍,3A游戏渲染性能提升15倍[30][31] - 首次推出面向端侧场景的智能SoC芯片“长江”,提供50 TOPS的异构AI算力,应用于具身智能、车载、AI计算终端等领域[32][34] 新产品发布:硬件与集群 - 基于长江芯片发布两款硬件:为AI学习与开发者打造的个人智算平台“MTT AIBOOK”,以及桌面高性能AI计算设备“AICube”[36][37][43] - MTT AIBOOK运行MT AIOS操作系统,预置完整AI开发环境,内置智能体“小麦”支持2K高清渲染、本地大模型及端侧ASR/TTS,并预装智源悟界Emu3.5多模态模型[37][40][42] - 发布“夸娥(KUAE 2.0)”万卡智算集群,在Dense大模型上的算力利用率达60%,在MOE大模型上达40%,有效训练时间占比超过90%[46][47] - 公司已完整复现DeepSeek V3的FP8训练,自研FP8 GEMM算力利用率高达90%[47] - 前瞻性披露下一代高密硬件基石“MTT C256超节点”,采用计算与交换一体化设计以提升万卡集群的能效比和训练效能[49][50] 性能验证与行业意义 - 公司与硅基流动合作,在MTT S5000 GPU上成功完成对DeepSeek V3 671B满血版大模型的深度适配与性能验证[53] - 在FP8低精度推理技术加持下,MTT S5000单卡实测Prefill吞吐突破4000 tokens/s,Decode吞吐超1000 tokens/s,创下当前国产GPU在大模型推理场景下的新高[53] - 这一成果表明,在成熟软件工程体系协同优化下,国产算力硬件正从“能跑”迈向“跑得快、跑得稳、跑得值”,单位算力有效利用率成为关键落地指标[54][55] - MUSA架构的创新不仅是对下一代AI基础设施的系统性回答,更是对未来AI产业格局的一次主动定义,使其成为多模态智能、具身智能及物理AI时代的关键使能平台[16][19]