Workflow
MUSA软件栈
icon
搜索文档
单卡1000 TFLOPS,摩尔线程旗舰级计算卡首曝,性能逼近Blackwell
36氪· 2026-02-12 20:22
核心观点 - 在国产AI算力领域,软硬协同的生态适配是决定胜负的关键,硬件性能堆叠仅是入场券 [1] - 摩尔线程通过其全栈协同的技术路线,实现了对智谱AI最新一代GLM-5模型的“发布即适配”(Day-0适配),证明了国产算力生态的成熟度 [3] - 摩尔线程的旗舰计算卡MTT S5000在硬件性能上对标国际主流产品(如英伟达H100),并在实际训练与推理场景中展现出强大竞争力 [1][6][11] 硬件性能与规格 - **单卡算力**:MTT S5000单卡FP8算力高达1000 TFLOPS [1][6][9] - **显存与带宽**:搭载80GB显存,显存带宽高达1.6TB/s,卡间互联带宽达到784GB/s,与英伟达H100基本一致 [6] - **精度支持**:提供对FP8到FP64全精度计算的完整支持,并引入了硬件级FP8 Tensor Core作为性能跃升的核心引擎 [7] - **集群能力**:基于S5000构建的“夸娥”万卡集群,其浮点运算能力已达10 Exa-Flops级别 [9] 软件生态与适配能力 - **软件栈敏捷性**:基于MUSA架构的TileLang原生算子单元测试覆盖率已超过80%,使得绝大多数通用算子可直接复用,极大降低了移植成本 [3] - **框架兼容性**:MUSA全栈软件平台能够原生适配PyTorch、Megatron-LM等主流框架,实现“零成本”的代码迁移,兼容国际主流CUDA生态 [11] - **快速响应能力**:从GLM-4.6、GLM-4.7到GLM-5,摩尔线程通过一次次“发布即适配”的实战,证明了对前沿模型结构与新特性的快速响应能力 [12] 实际性能表现 - **推理性能**:在典型端到端推理及训练任务中,MTT S5000的性能约为竞品H20的2.5倍 [9] - **集群扩展效率**:从64卡扩展至1024卡,系统始终保持90%以上的线性扩展效率,训练速度随算力增加几乎实现同步倍增,有效训练时间占比超过90% [10] - **算力利用率**:在“夸娥”集群实测中,Dense模型训练中MFU(模型浮点运算利用率)达60%,MoE模型维持在40%左右,Flash Attention算力利用率超过95% [9] - **通信优化**:独创的ACE技术通过将复杂通信任务从计算核心卸载,实现了物理级的“通信计算重叠”,从而释放了15%的被占算力 [9] 训练与推理实战验证 - **训练端验证**:智源研究院利用S5000千卡集群完成了前沿具身大脑模型RoboBrain 2.5的端到端训练与对齐验证,其训练过程与英伟达H100集群高度重合,训练损失值(loss)差异仅为0.62% [11] - **推理端验证**:联合硅基流动对DeepSeek-V3 671B满血版进行测试,在PD分离部署中,单卡Prefill(预填充)吞吐量超过4000 tokens/s,Decode(解码)吞吐量超过1000 tokens/s [12] - **延迟与优化**:在GLM-5的运行中展现了极低的首字延迟(TTFT)和流畅的生成体验,配合首创的细粒度重计算技术,将开销降至原有的1/4,提升了系统吞吐量 [3][12] 模型适配与行业影响 - **适配模型**:摩尔线程AI旗舰级计算卡MTT S5000实现了对智谱AI最新一代“国模顶流”GLM-5的Day-0适配,该模型Coding能力位居全球开源第一、总榜第四 [1][3] - **性能提升**:GLM-5相较上一代性能提升20%,对长序列推理和复杂系统工程能力要求极高,MTT S5000凭借对稀疏Attention的架构级支持,在大规模上下文处理中保持高吞吐与低延迟 [3] - **行业意义**:为开发者提供了第一时间触达最新模型能力的通道,为行业筑牢了一个坚实、易用且具备高度兼容性的国产算力底座 [12]
唯快不破!S5000参数首次曝光,发布即适配的国产GPU生态正在形成!
广州日报· 2026-02-12 10:12
核心观点 - 摩尔线程公司实现了其旗舰AI GPU MTT S5000与智谱新一代大模型GLM-5的“发布即适配”,这标志着国产全功能GPU及软件生态在成熟度、敏捷性和对前沿模型支持能力上达到新高度,有望成为行业常态 [1][3] 产品性能与优势 - MTT S5000单卡AI算力最高达1000 TFLOPS,配备80GB显存,显存带宽1.6TB/s,卡间互联带宽784GB/s,完整支持从FP8到FP64的全精度计算 [2] - 在数千亿参数模型的全流程训练验证中,MTT S5000与H100集群结果一致性极高,最终模型关键指标误差仅千分之几,整体训练效果实现小幅超越 [2] - 在典型端到端推理及训练任务中,MTT S5000性能可达竞品H20的2.5倍左右,凭借高算力在计算密集型场景中展现出强劲输出和显著性价比优势 [2] - 通过深度释放原生FP8加速能力,在确保模型精度的同时显著降低了显存占用,实现了GLM-5的高性能推理 [1] 软件生态与技术能力 - MUSA软件栈的成熟度是实现快速适配的关键,其TileLang原生算子单元测试覆盖率已超过80%,使绝大多数通用算子可直接复用,显著降低移植成本 [3] - 通过高效算子融合及框架极致优化,MTT S5000在确保代码生成质量的同时显著降低了响应延迟,在处理复杂任务时能保持低首字延迟和快生成速度的流畅体验 [3] - 公司核心优势在于提供“软硬协同的全栈算力底座”,MUSA架构具有广泛的算子覆盖与强大的生态兼容能力,成功打通了模型推理全链路 [1][2] 应用场景与开发者体验 - MTT S5000与GLM-5的组合在函数补全、漏洞检测、Debug等核心编程场景中表现卓越,以显著增强的逻辑规划能力从容应对各类复杂的长程任务挑战 [1][3] - 该软硬双强组合为开发者带来可对标国际顶尖模型的极致编程体验,是执行长程开发任务的理想选择 [1][3] - 从GLM-4.6、GLM-4.7到GLM-5,公司已将“发布即适配”化为常态,确保开发者能第一时间触达最新模型能力 [3] 行业意义与生态建设 - “发布即适配”的情况有望成为未来国产GPU生态构建的常态 [1] - 国产全功能GPU及MUSA软件栈已经具备相当高的成熟度与稳定性,能够对主流软件栈实现无缝兼容与敏捷响应 [3] - 此次快速适配充分展现了国产全功能GPU对最新大模型即时、高效的支持能力,将携手开发者共建蓬勃发展的国产AI生态 [1][3]
摩尔线程MTT S5000率先完成对GLM-5的适配
新浪财经· 2026-02-12 08:53
公司产品与技术进展 - 摩尔线程基于SGLang推理框架,在其旗舰级AI训推一体全功能GPU MTT S5000上,完成了对GLM-5大模型的Day-0全流程适配与验证 [1] - 公司成功打通了模型推理全链路,并深度释放了MTT S5000的原生FP8加速能力,在确保模型精度的同时显著降低了显存占用,实现了GLM-5的高性能推理 [1] - 此次快速适配印证了公司MUSA软件栈的成熟度,并展现了其国产全功能GPU对最新大模型即时、高效的支持能力 [1] 行业生态与合作 - 智谱于2月11日正式发布新一代大模型GLM-5 [1] - 摩尔线程凭借其MUSA架构广泛的算子覆盖与强大的生态兼容能力,完成了对GLM-5的快速适配 [1]
国产GPU“四小龙”扎堆IPO
和讯· 2025-07-04 18:15
行业背景 - 生成式AI爆发导致英伟达GPU芯片供不应求,为国产GPU企业创造发展机遇[3] - 美国芯片出口管制收紧导致英伟达在华份额下降,国产替代窗口期出现[6] - 2024年6月摩尔线程、沐曦等4家国产GPU企业集中递交科创板IPO申请,形成"国产GPU四小龙"格局[4][6] 公司发展路径 摩尔线程 - 创始人张建中曾任英伟达全球副总裁兼中国区总经理,CTO张钰勃同样来自英伟达[7][9] - 采用"全功能GPU"战略,同时布局数据中心和消费级显卡市场,产品线覆盖苏堤/春晓/曲院/平湖系列芯片[10] - 2024年推出万卡级"夸娥智算集群",客户覆盖运营商、国有银行及大模型创业公司[10] - 累计完成7轮融资总额超45亿元,Pre-IPO轮投前估值达246.2亿元[11] 沐曦股份 - 核心团队具备AMD背景,创始人陈维良曾任AMD GPU设计高级总监[10] - 聚焦数据中心市场,产品线包括曦思N系列/AI训练、曦云C系列/AI推理、曦彩G系列/图形渲染[10][11] - 完成约8轮融资达数十亿元,最近估值210.71亿元,投资方包括国有资本和头部创投[11] 财务与IPO进展 - 摩尔线程2022-2024年营收0.46亿/1.24亿/4.38亿,年复合增速超200%,同期亏损18.4亿/16.73亿/14.92亿[13][14] - 沐曦2022-2024年营收42.64万/5302.12万/7.43亿,2025Q1达3.2亿,年复合增速4074%,同期亏损7.77亿/8.71亿/14.09亿[13][14] - 两家公司均采用科创板第二套上市标准,摩尔线程计划募资80亿用于3类芯片研发,沐曦计划募资39亿用于GPU迭代[15][16] 技术生态建设 - 英伟达通过CUDA生态建立百万开发者社区,形成核心壁垒[17] - 摩尔线程开发MUSA软件栈支持CUDA代码自动移植,沐曦推出MXMACA软件栈兼容主流框架[17] - 寒武纪2024年股价涨幅388%,市值曾达3000亿元,验证资本市场对国产GPU概念的认可[6][17] 行业竞争格局 - 行业呈现"一超一强"格局(英伟达/AMD),国产厂商坦承处于追赶阶段[6][10] - 2024年象帝先(估值150亿)、砺算科技等企业出现资金链断裂,行业洗牌加速[15] - 未来竞争重点从硬件转向"硬件+软件生态"综合能力[17]