MT Lambda具身智能仿真训练平台 - 财报，业绩电话会，研报，新闻

MT Lambda具身智能仿真训练平台

搜索文档

MDC2025：全功能GPU路线清晰，MUSA生态进入规模化验证阶段

海通国际· 2025-12-23 13:14

报告行业投资评级 * 报告未明确给出对摩尔线程或相关行业的投资评级 [1][8] 报告核心观点 * 报告认为，摩尔线程在首届MUSA开发者大会上展示了其全功能GPU技术路线图的清晰度与MUSA生态系统的规模化验证进展，公司在坚持全功能GPU路线、构建统一软件生态和拓展前沿应用方面展现出长期潜力，但同时也面临更高的研发与工程复杂度 [1][2][10] 根据相关目录分别进行总结软件生态 (MUSA 5.0) * MUSA 5.0已形成从指令集、编程模型、编译器到通信库的全栈体系，工程化表现接近国际主流水平 [2][10] * 开发体验：原生支持MUSA C，同时兼容TileLang、Triton，降低了CUDA的迁移门槛 [2][14] * 性能指标：muDNN中GEMM/FlashAttention效率超过98%，通信效率约97%，编译器性能提升约3倍 [2][14] * 生态策略：明确了逐步开源计算库、通信库、系统管理框架等核心组件的路线图 [2][14] * 前沿扩展：布局了MTX中间语言、muLang、MUSA-Q、muLitho等，覆盖渲染、量子计算与计算光刻领域 [2][14] 硬件架构与产品路线 (花港架构) * 新一代全功能GPU架构“花港”在算力密度、能效、精度覆盖与互联能力上全面升级，支持FP4至FP64全精度计算，并引入混合低精度（MTFP6/MTFP4） [2][10] * 花港架构强调异步编程模型与超大规模互联（MTLink），为万卡乃至十万卡集群提供扩展基础 [2][10] * 公司基于花港架构给出了清晰的产品分化路径：“华山”面向AI训推一体与超大规模智算，定位下一代AI工厂底座；“庐山”专注高性能图形渲染，在几何、AI、光追等指标上实现数量级提升，全面对标3A游戏与专业图形创作需求 [4][14] 系统级工程能力 (夸娥集群) * “夸娥”万卡智算集群是对外展示工程能力的重要里程碑，在Dense模型与MoE模型上分别实现约60%与约40%的MFU（模型浮点利用率），线性扩展效率约95%，有效训练时间占比超过90% [3][11] * 训练侧完整复现了FP8训练流程；推理侧与硅基流动合作，在DeepSeek R1 671B模型上实现单卡Prefill（预填充）大于4000 tokens/s、Decode（解码）大于1000 tokens/s的吞吐量 [3][11] * 公司公布了MTT C256超节点的前瞻规划，强调计算与交换一体化的高密架构，为下一代超大规模智算中心做准备 [3][11] 前沿应用布局 (具身智能) * 公司发布MT Lambda具身智能仿真训练平台，以MUSA统一架构为底座，深度融合物理引擎、图形渲染引擎与AI计算引擎，构建覆盖开发、仿真与训练的全栈式技术体系 [3][12] * 该平台通过高精度物理仿真与真实感渲染环境，加速具身智能模型在复杂真实世界场景中的学习与泛化能力，并与公司GPU算力、端云协同方案形成联动，为机器人、自动化与智能体等应用提供训练基础设施 [3][12] 公司战略定位 * 在国产GPU厂商中，摩尔线程是少数坚定走“全功能GPU”而非“单一AI加速器”路线的公司，未在AI浪潮中放弃图形与通用计算，这在长期生态与开发者黏性上具备更高上限，但同时意味着更高的研发与工程复杂度 [2][10]

中国基金报· 2025-12-20 21:32

公司技术发布 - 摩尔线程召开首届MUSA开发者大会，展示了以自主MUSA统一架构为核心的全栈技术成果 [2] - 公司揭晓新一代全功能GPU架构“花港”，在计算密度、能效、精度支持、互联能力及图形技术等方面实现全面突破 [3] - 基于“花港”架构，公司公布了两款未来芯片的技术路线：“华山”专注AI训推一体与超大规模智能计算，“庐山”专攻高性能图形渲染 [4] - 公司正式发布夸娥万卡智算集群，具备全精度、全功能通用计算能力，在万卡规模下能实现高效稳定的AI训练与推理 [5] 产品性能与特性 - “花港”GPU架构基于新一代指令集，算力密度提升50%，支持从FP4到FP64的全精度端到端计算，新增MTFP6/MTFP4及混合低精度支持 [3] - “花港”架构集成新一代异步编程模型，并通过自研MTLink高速互联技术，支持十万卡以上规模智算集群扩展 [3] - “花港”架构内置AI生成式渲染架构，增强硬件光线追踪加速引擎，完整支持DirectX 12 Ultimate [3] - 未来芯片“庐山”的AI计算性能提升64倍，几何处理性能提升16倍，光线追踪性能提升50倍，并显著增强纹理填充、原子访存能力及显存容量 [4] - 夸娥万卡智算集群浮点运算能力达到10Exa-Flops，训练算力利用率在Dense大模型上达60%，在MOE大模型上达40%，有效训练时间占比超过90%，训练线性扩展效率达95% [5] 行业动态与竞争 - 在摩尔线程开发者大会前，中科曙光在光合组织2025人工智能创新技术大会上发布了曙光scaleX万卡超集群系统，这是国产万卡级算力集群首次以真机形式公开亮相 [6] - 中科曙光的scaleX万卡超集群在超节点架构、高速互连网络等方面实现了多项创新突破，部分技术与能力据称已超越英伟达研发路线图的2027年NVL576里程节点 [6] 公司前瞻性布局 - 摩尔线程已发布MT Lambda具身智能仿真训练平台，深度融合物理、渲染与AI三大引擎，构建了开发、仿真、训练的高效统一环境 [6] - 公司推出基于智能SoC芯片“长江”、AI模组MTT E300和夸娥智算集群“端云结合”的MT Robot具身智能解决方案 [6]

上海证券报· 2025-12-20 21:24

核心观点 - 摩尔线程在首届MUSA开发者大会上，首次公开了其全功能GPU技术路线图，并发布了包括新一代GPU架构“花港”、夸娥万卡智算集群、AI算力本等一系列技术与产品进展，标志着公司已构建起贯穿“芯-边-端-云”的完整自主技术栈，并致力于加速构建国产计算产业生态 [2][3][11] 新一代GPU架构与芯片路线图 - 公司宣布其自主研发的元计算统一架构MUSA升级至5.0版本，在全栈统一性、效能与生态开放性上取得关键突破 [3] - 基于MUSA发布了新一代GPU架构“花港”，基于新一代指令集，支持FP4到FP64的全精度计算，算力密度提升50%，能效提升10倍，可支持十万卡以上规模智算集群 [3] - 基于“花港”架构，公布了未来两款芯片技术路线：“华山”专注AI训推一体与超大规模智能计算，支持从FP4至FP64的全精度计算，为万卡级智算集群提供算力支撑 [3] - “庐山”专攻高性能图形渲染，其AI计算性能提升64倍，几何处理性能提升16倍，光线追踪性能提升50倍，并显著增强纹理填充、原子访存能力及显存容量，集成AI生成式渲染等新技术 [5] 夸娥万卡智算集群与算力突破 - 发布了夸娥万卡智算集群，具备全精度、全功能通用计算能力，在万卡规模下实现高效稳定的AI训练与推理 [7] - 该集群浮点运算能力达到10Exa-Flops，训练算力利用率在Dense大模型上达60%，在MOE大模型上达40%，有效训练时间占比超过90%，训练线性扩展效率达95% [7] - 推理侧，联合硅基流动在DeepSeek-R1 671B全量模型上实现单卡推理性能突破，MTT S5000单卡Prefill吞吐突破4000tokens/s、Decode吞吐突破1000tokens/s [7] - 训练侧，基于原生FP8能力完整复现顶尖大模型训练流程，Flash Attention算力利用率超95%，并突破FP8累加精度等关键技术瓶颈 [7] - 发布了MTT C256超节点的架构规划，采用计算与交换一体化的高密设计，旨在系统性提升万卡集群的训练效能与推理能力 [7] 图形计算与具身智能布局 - 图形产品已全面支持DirectX 12、OpenGL 4.6、Vulkan 1.3等主流API，并将完整支持DirectX 12 Ultimate，与国产主流CPU及操作系统完成了全栈适配 [8] - 在核心渲染技术上取得两项关键突破：基于“花港”架构的硬件光线追踪加速引擎，可支持DirectX Raytracing；推出全自研的AI生成式渲染技术MTAGR 1.0 [8] - 发布了MT Lambda具身智能仿真训练平台，深度融合物理、渲染与AI三大引擎，构建开发、仿真、训练的统一环境 [8] - 推出基于智能SoC芯片“长江”、AI模组MTT E300和夸娥智算集群的MT Robot具身智能解决方案 [8] - 公司计划于2026年第一季度开源关键仿真加速组件Mujoco-warp-MUSA [9] - MUSA生态还与合作伙伴在科学智能、量子科技、AI for 6G等前沿交叉领域展开探索 [10] 生态建设与开发者体系 - 公司认为生态体系是GPU行业的核心护城河与价值所在，致力于以开放创新深化与生态伙伴的协同，共同构建国产计算产业生态 [11] - 以摩尔学院为平台，已构建产教融合的开发者成长体系，目前汇聚近20万名开发者与学习者 [11] - 通过“国产计算生态与AI教育共建行动”将前沿技术与产业实践带入全国200多所高校，吸引超10万名学子参与 [11] 端侧计算产品 - 发布了搭载智能SoC芯片“长江”的AI算力本MTT AIBOOK，提供50TOPS的端侧AI算力，实现了专业AI开发的“开箱即用”，并打破了Linux开发、Windows办公与Android应用之间的场景壁垒 [12] - 预告了基于“长江”SoC打造的迷你型计算设备MTT AICube，进一步丰富端侧计算产品形态 [12]