MT Lambda具身智能仿真训练平台
搜索文档
MDC2025:全功能GPU路线清晰,MUSA生态进入规模化验证阶段
海通国际· 2025-12-23 13:14
报告行业投资评级 * 报告未明确给出对摩尔线程或相关行业的投资评级 [1][8] 报告核心观点 * 报告认为,摩尔线程在首届MUSA开发者大会上展示了其全功能GPU技术路线图的清晰度与MUSA生态系统的规模化验证进展,公司在坚持全功能GPU路线、构建统一软件生态和拓展前沿应用方面展现出长期潜力,但同时也面临更高的研发与工程复杂度 [1][2][10] 根据相关目录分别进行总结 软件生态 (MUSA 5.0) * MUSA 5.0已形成从指令集、编程模型、编译器到通信库的全栈体系,工程化表现接近国际主流水平 [2][10] * 开发体验:原生支持MUSA C,同时兼容TileLang、Triton,降低了CUDA的迁移门槛 [2][14] * 性能指标:muDNN中GEMM/FlashAttention效率超过98%,通信效率约97%,编译器性能提升约3倍 [2][14] * 生态策略:明确了逐步开源计算库、通信库、系统管理框架等核心组件的路线图 [2][14] * 前沿扩展:布局了MTX中间语言、muLang、MUSA-Q、muLitho等,覆盖渲染、量子计算与计算光刻领域 [2][14] 硬件架构与产品路线 (花港架构) * 新一代全功能GPU架构“花港”在算力密度、能效、精度覆盖与互联能力上全面升级,支持FP4至FP64全精度计算,并引入混合低精度(MTFP6/MTFP4) [2][10] * 花港架构强调异步编程模型与超大规模互联(MTLink),为万卡乃至十万卡集群提供扩展基础 [2][10] * 公司基于花港架构给出了清晰的产品分化路径:“华山”面向AI训推一体与超大规模智算,定位下一代AI工厂底座;“庐山”专注高性能图形渲染,在几何、AI、光追等指标上实现数量级提升,全面对标3A游戏与专业图形创作需求 [4][14] 系统级工程能力 (夸娥集群) * “夸娥”万卡智算集群是对外展示工程能力的重要里程碑,在Dense模型与MoE模型上分别实现约60%与约40%的MFU(模型浮点利用率),线性扩展效率约95%,有效训练时间占比超过90% [3][11] * 训练侧完整复现了FP8训练流程;推理侧与硅基流动合作,在DeepSeek R1 671B模型上实现单卡Prefill(预填充)大于4000 tokens/s、Decode(解码)大于1000 tokens/s的吞吐量 [3][11] * 公司公布了MTT C256超节点的前瞻规划,强调计算与交换一体化的高密架构,为下一代超大规模智算中心做准备 [3][11] 前沿应用布局 (具身智能) * 公司发布MT Lambda具身智能仿真训练平台,以MUSA统一架构为底座,深度融合物理引擎、图形渲染引擎与AI计算引擎,构建覆盖开发、仿真与训练的全栈式技术体系 [3][12] * 该平台通过高精度物理仿真与真实感渲染环境,加速具身智能模型在复杂真实世界场景中的学习与泛化能力,并与公司GPU算力、端云协同方案形成联动,为机器人、自动化与智能体等应用提供训练基础设施 [3][12] 公司战略定位 * 在国产GPU厂商中,摩尔线程是少数坚定走“全功能GPU”而非“单一AI加速器”路线的公司,未在AI浪潮中放弃图形与通用计算,这在长期生态与开发者黏性上具备更高上限,但同时意味着更高的研发与工程复杂度 [2][10]
摩尔线程 突发大消息!
中国基金报· 2025-12-20 21:32
公司技术发布 - 摩尔线程召开首届MUSA开发者大会,展示了以自主MUSA统一架构为核心的全栈技术成果 [2] - 公司揭晓新一代全功能GPU架构“花港”,在计算密度、能效、精度支持、互联能力及图形技术等方面实现全面突破 [3] - 基于“花港”架构,公司公布了两款未来芯片的技术路线:“华山”专注AI训推一体与超大规模智能计算,“庐山”专攻高性能图形渲染 [4] - 公司正式发布夸娥万卡智算集群,具备全精度、全功能通用计算能力,在万卡规模下能实现高效稳定的AI训练与推理 [5] 产品性能与特性 - “花港”GPU架构基于新一代指令集,算力密度提升50%,支持从FP4到FP64的全精度端到端计算,新增MTFP6/MTFP4及混合低精度支持 [3] - “花港”架构集成新一代异步编程模型,并通过自研MTLink高速互联技术,支持十万卡以上规模智算集群扩展 [3] - “花港”架构内置AI生成式渲染架构,增强硬件光线追踪加速引擎,完整支持DirectX 12 Ultimate [3] - 未来芯片“庐山”的AI计算性能提升64倍,几何处理性能提升16倍,光线追踪性能提升50倍,并显著增强纹理填充、原子访存能力及显存容量 [4] - 夸娥万卡智算集群浮点运算能力达到10Exa-Flops,训练算力利用率在Dense大模型上达60%,在MOE大模型上达40%,有效训练时间占比超过90%,训练线性扩展效率达95% [5] 行业动态与竞争 - 在摩尔线程开发者大会前,中科曙光在光合组织2025人工智能创新技术大会上发布了曙光scaleX万卡超集群系统,这是国产万卡级算力集群首次以真机形式公开亮相 [6] - 中科曙光的scaleX万卡超集群在超节点架构、高速互连网络等方面实现了多项创新突破,部分技术与能力据称已超越英伟达研发路线图的2027年NVL576里程节点 [6] 公司前瞻性布局 - 摩尔线程已发布MT Lambda具身智能仿真训练平台,深度融合物理、渲染与AI三大引擎,构建了开发、仿真、训练的高效统一环境 [6] - 公司推出基于智能SoC芯片“长江”、AI模组MTT E300和夸娥智算集群“端云结合”的MT Robot具身智能解决方案 [6]
周末重磅!摩尔线程 首次公开
上海证券报· 2025-12-20 21:24
核心观点 - 摩尔线程在首届MUSA开发者大会上,首次公开了其全功能GPU技术路线图,并发布了包括新一代GPU架构“花港”、夸娥万卡智算集群、AI算力本等一系列技术与产品进展,标志着公司已构建起贯穿“芯-边-端-云”的完整自主技术栈,并致力于加速构建国产计算产业生态 [2][3][11] 新一代GPU架构与芯片路线图 - 公司宣布其自主研发的元计算统一架构MUSA升级至5.0版本,在全栈统一性、效能与生态开放性上取得关键突破 [3] - 基于MUSA发布了新一代GPU架构“花港”,基于新一代指令集,支持FP4到FP64的全精度计算,算力密度提升50%,能效提升10倍,可支持十万卡以上规模智算集群 [3] - 基于“花港”架构,公布了未来两款芯片技术路线:“华山”专注AI训推一体与超大规模智能计算,支持从FP4至FP64的全精度计算,为万卡级智算集群提供算力支撑 [3] - “庐山”专攻高性能图形渲染,其AI计算性能提升64倍,几何处理性能提升16倍,光线追踪性能提升50倍,并显著增强纹理填充、原子访存能力及显存容量,集成AI生成式渲染等新技术 [5] 夸娥万卡智算集群与算力突破 - 发布了夸娥万卡智算集群,具备全精度、全功能通用计算能力,在万卡规模下实现高效稳定的AI训练与推理 [7] - 该集群浮点运算能力达到10Exa-Flops,训练算力利用率在Dense大模型上达60%,在MOE大模型上达40%,有效训练时间占比超过90%,训练线性扩展效率达95% [7] - 推理侧,联合硅基流动在DeepSeek-R1 671B全量模型上实现单卡推理性能突破,MTT S5000单卡Prefill吞吐突破4000tokens/s、Decode吞吐突破1000tokens/s [7] - 训练侧,基于原生FP8能力完整复现顶尖大模型训练流程,Flash Attention算力利用率超95%,并突破FP8累加精度等关键技术瓶颈 [7] - 发布了MTT C256超节点的架构规划,采用计算与交换一体化的高密设计,旨在系统性提升万卡集群的训练效能与推理能力 [7] 图形计算与具身智能布局 - 图形产品已全面支持DirectX 12、OpenGL 4.6、Vulkan 1.3等主流API,并将完整支持DirectX 12 Ultimate,与国产主流CPU及操作系统完成了全栈适配 [8] - 在核心渲染技术上取得两项关键突破:基于“花港”架构的硬件光线追踪加速引擎,可支持DirectX Raytracing;推出全自研的AI生成式渲染技术MTAGR 1.0 [8] - 发布了MT Lambda具身智能仿真训练平台,深度融合物理、渲染与AI三大引擎,构建开发、仿真、训练的统一环境 [8] - 推出基于智能SoC芯片“长江”、AI模组MTT E300和夸娥智算集群的MT Robot具身智能解决方案 [8] - 公司计划于2026年第一季度开源关键仿真加速组件Mujoco-warp-MUSA [9] - MUSA生态还与合作伙伴在科学智能、量子科技、AI for 6G等前沿交叉领域展开探索 [10] 生态建设与开发者体系 - 公司认为生态体系是GPU行业的核心护城河与价值所在,致力于以开放创新深化与生态伙伴的协同,共同构建国产计算产业生态 [11] - 以摩尔学院为平台,已构建产教融合的开发者成长体系,目前汇聚近20万名开发者与学习者 [11] - 通过“国产计算生态与AI教育共建行动”将前沿技术与产业实践带入全国200多所高校,吸引超10万名学子参与 [11] 端侧计算产品 - 发布了搭载智能SoC芯片“长江”的AI算力本MTT AIBOOK,提供50TOPS的端侧AI算力,实现了专业AI开发的“开箱即用”,并打破了Linux开发、Windows办公与Android应用之间的场景壁垒 [12] - 预告了基于“长江”SoC打造的迷你型计算设备MTT AICube,进一步丰富端侧计算产品形态 [12]