核心观点 - 在国产AI算力领域,软硬协同的生态适配是决定胜负的关键,硬件性能堆叠仅是入场券 [1] - 摩尔线程通过其全栈协同的技术路线,实现了对智谱AI最新一代GLM-5模型的“发布即适配”(Day-0适配),证明了国产算力生态的成熟度 [3] - 摩尔线程的旗舰计算卡MTT S5000在硬件性能上对标国际主流产品(如英伟达H100),并在实际训练与推理场景中展现出强大竞争力 [1][6][11] 硬件性能与规格 - 单卡算力:MTT S5000单卡FP8算力高达1000 TFLOPS [1][6][9] - 显存与带宽:搭载80GB显存,显存带宽高达1.6TB/s,卡间互联带宽达到784GB/s,与英伟达H100基本一致 [6] - 精度支持:提供对FP8到FP64全精度计算的完整支持,并引入了硬件级FP8 Tensor Core作为性能跃升的核心引擎 [7] - 集群能力:基于S5000构建的“夸娥”万卡集群,其浮点运算能力已达10 Exa-Flops级别 [9] 软件生态与适配能力 - 软件栈敏捷性:基于MUSA架构的TileLang原生算子单元测试覆盖率已超过80%,使得绝大多数通用算子可直接复用,极大降低了移植成本 [3] - 框架兼容性:MUSA全栈软件平台能够原生适配PyTorch、Megatron-LM等主流框架,实现“零成本”的代码迁移,兼容国际主流CUDA生态 [11] - 快速响应能力:从GLM-4.6、GLM-4.7到GLM-5,摩尔线程通过一次次“发布即适配”的实战,证明了对前沿模型结构与新特性的快速响应能力 [12] 实际性能表现 - 推理性能:在典型端到端推理及训练任务中,MTT S5000的性能约为竞品H20的2.5倍 [9] - 集群扩展效率:从64卡扩展至1024卡,系统始终保持90%以上的线性扩展效率,训练速度随算力增加几乎实现同步倍增,有效训练时间占比超过90% [10] - 算力利用率:在“夸娥”集群实测中,Dense模型训练中MFU(模型浮点运算利用率)达60%,MoE模型维持在40%左右,Flash Attention算力利用率超过95% [9] - 通信优化:独创的ACE技术通过将复杂通信任务从计算核心卸载,实现了物理级的“通信计算重叠”,从而释放了15%的被占算力 [9] 训练与推理实战验证 - 训练端验证:智源研究院利用S5000千卡集群完成了前沿具身大脑模型RoboBrain 2.5的端到端训练与对齐验证,其训练过程与英伟达H100集群高度重合,训练损失值(loss)差异仅为0.62% [11] - 推理端验证:联合硅基流动对DeepSeek-V3 671B满血版进行测试,在PD分离部署中,单卡Prefill(预填充)吞吐量超过4000 tokens/s,Decode(解码)吞吐量超过1000 tokens/s [12] - 延迟与优化:在GLM-5的运行中展现了极低的首字延迟(TTFT)和流畅的生成体验,配合首创的细粒度重计算技术,将开销降至原有的1/4,提升了系统吞吐量 [3][12] 模型适配与行业影响 - 适配模型:摩尔线程AI旗舰级计算卡MTT S5000实现了对智谱AI最新一代“国模顶流”GLM-5的Day-0适配,该模型Coding能力位居全球开源第一、总榜第四 [1][3] - 性能提升:GLM-5相较上一代性能提升20%,对长序列推理和复杂系统工程能力要求极高,MTT S5000凭借对稀疏Attention的架构级支持,在大规模上下文处理中保持高吞吐与低延迟 [3] - 行业意义:为开发者提供了第一时间触达最新模型能力的通道,为行业筑牢了一个坚实、易用且具备高度兼容性的国产算力底座 [12]
单卡1000 TFLOPS,摩尔线程旗舰级计算卡首曝,性能逼近Blackwell