聊一聊刚刚曝光参数的摩尔线程S5000
傅里叶的猫·2026-02-14 23:13

摩尔线程MTT S5000产品性能与规格 - 公司AI旗舰计算卡MTT S5000实现GLM-5的“Day-0”适配,推动国产算力生态进入“零时差”响应时代 [1] - MTT S5000是2024年推出的训推一体全功能GPU智算卡,专为大模型训练、推理及高性能计算设计,可对标国际旗舰水准 [3] - 产品硬件参数首次曝光:支持FP8到FP64全精度计算,单卡AI算力(FP8)最高可达1 PFLOPS(即1000 TFlops),显存容量80GB,显存带宽1.6TB/s,卡间互联带宽784GB/s [4] - 液冷版本AI算力为1000 TFlops,风冷版本为920 TFlops [4] - 业内人士表示,MTT S5000实测性能对标英伟达H100,在多模态大模型微调任务中部分性能甚至超越H100 [4] 芯片架构与技术创新 - S5000采用第四代MUSA架构“平湖”,专为大规模AI训练优化 [6] - 依托MUSA全栈软件平台,原生适配PyTorch、Megatron-LM、vLLM及SGLang等主流框架,实现“零成本”代码迁移,兼容国际主流CUDA生态 [6] - 该产品是国内首批最早原生支持FP8精度的训练GPU,配置硬件级FP8 Tensor Core加速单元 [6] - 相比传统BF16/FP16,FP8可将数据位宽减半,显存带宽压力降低50%,理论计算吞吐量翻倍 [6] - FP8引擎全面支持DeepSeek、Qwen等前沿架构,可提升30%以上训练性能 [6] - 在集群通信层面,S5000采用独创的ACE技术,将复杂通信任务从计算核心卸载,实现计算与通信零冲突并行,大幅提升模型算力利用率(MFU) [10] 夸娥万卡集群性能表现 - 基于S5000构建的夸娥万卡集群已落地,其浮点运算能力达到10 Exa-Flops [8] - 在Dense模型训练中,集群的模型FLOPs利用率(MFU)达到60%,在MoE模型中维持在40%左右 [8] - 集群有效训练时间占比超过90%,训练线性扩展效率达95% [8] - 依托原生FP8能力,集群能完整复现顶尖大模型的训练流程,其中Flash Attention算力利用率超过95% [8] - 实测显示,从64卡扩展至1024卡,系统保持90%以上的线性扩展效率,训练速度随算力增加几乎同步倍增 [10] 实际训练与推理案例 - 2026年1月,智源研究院基于S5000千卡集群,完成了前沿具身大脑模型RoboBrain 2.5的端到端训练与对齐验证 [10] - 训练结果显示,与英伟达H100集群的训练结果高度重合,训练损失值(loss)差异仅为0.62% [10] - 在推理场景,2025年12月公司联合硅基流动基于S5000完成对DeepSeek-V3 671B满血版的深度适配与性能测试 [12] - 实测单卡Prefill吞吐超4000 tokens/s,Decode吞吐超1000 tokens/s,刷新了国产GPU的推理纪录 [12]

聊一聊刚刚曝光参数的摩尔线程S5000 - Reportify