公司产品与技术进展 - 公司于2024年12月20日首届MUSA开发者大会上公布了新的“花港”GPU架构及基于该架构的三款新芯片:华山(AI训推一体芯片)、庐山(图形渲染芯片)和长江(SoC系统级芯片)[1] - 新推出的“花港”架构算力密度比前一代提升50%,支持从FP4到FP64的全精度计算,并支持十万卡以上规模智算集群扩展[1] - 公司GPU架构保持每年迭代节奏:2022年“春晓”架构(S3000)、2023年“曲院”架构(S4000)、2024年“平湖”架构(S5000)[1] - 新一代AI训推一体芯片“华山”的浮点计算能力介于英伟达Blackwell和Hopper之间,其访存带宽与Blackwell接近,高速互联带宽在Hopper和Blackwell之间[3] - 公司产品支持的计算精度范围持续扩大,上一代板卡S5000开始支持FP8精度,新一代“华山”芯片开始支持FP4精度[2][3] 产品性能与对比 - 公司S4000板卡在FP32、TF32、FP16、INT8精度下的算力分别为25 TFLOPS、49 TFLOPS、98 TFLOPS、196 TOPS,最大功耗450W[2] - 在DeepSeek-R1全量模型分布式推理场景中,S5000的Prefill Only、Decode单卡吞吐量分别是H20等常见芯片产品的约2.5倍、1.3倍[3] - 与英伟达2020年推出的A100 80GB PCle相比,A100在相同精度下的算力分别为19.5TFLOPS、156TFLOPS、312TFLOPS、624TOPS,最大功耗300W,S4000在一些精度下的算力表现和功耗表现不及A100[2] 智算集群发展规划 - 公司AI智算板卡支持的集群规模持续提升,2024年推出第一代千卡集群,今年达到1万卡,并计划未来扩展至10万卡、50万卡、100万卡规模[1][3] - 构建万卡智算集群的工程难度涉及超大集群供电及液冷散热、超大规模互联组网及通信、集群训练有效算力、训练稳定性与可用性、模型训练精度与效果测评等方面[5] - 行业大模型训练发展趋势包括模型走向万亿参数、训练集群规模迈向10万卡、训练精度从FP16走向FP8和FP4,未来需解决高效并行训练、低精度训练及高性能通信等挑战[5] 公司其他动态 - 公司于2024年12月5日在科创板上市,发行价为114.28元/股,股价随后出现较大波动,12月11日收盘价超900元/股,12月19日收盘价为664.1元/股[5] - 公司在此次开发者大会上还推出了具身智能仿真训练平台和AI算力笔记本MTT AIBOOK[5] - 公司目前尚未盈利,截至2024年6月底累计未弥补亏损为16亿元,并预计2027年可实现合并报表盈利[5]
摩尔线程张建中:智算集群将做到50万卡、100万卡规模