Workflow
全功能GPU
icon
搜索文档
破解大模型算力困局?国产GPU用“AI工厂”给出答案
半导体行业观察· 2025-07-28 09:32
人工智能芯片市场现状 - 英伟达凭借GPU先发优势近乎垄断AI芯片市场,业绩和市值屡创新高 [1] - AMD CEO预测AI加速器市场规模几年内将超5000亿美元 [1] - 全球TOP 100 HPC中80%由GPU厂商占据,全功能GPU承载关键算力 [2] 全功能GPU技术演进 - 全功能GPU发展历经三个阶段:单一任务加速→开放编程接口→通用计算平台 [2] - 全功能GPU具备四大核心引擎:AI计算加速、3D图形渲染、物理仿真、视频编解码 [3] - 支持FP64至INT8完整精度谱系,FP8技术提升Transformer性能30% [9][11] 摩尔线程技术布局 - 已推出四代GPU架构和智能SoC产品,构建完整计算加速体系 [5] - 自研MUSA架构突破传统限制,参数化配置降低开发成本 [9] - 通过内存系统优化实现50%带宽节省和60%延迟降低 [11] - 开发muDNN算子实现98% GEMM利用率,通信库达97%带宽利用率 [12] AI工厂系统架构 - 生产效率公式:加速通用性×单芯片算力×节点效率×集群效率×稳定性 [7] - 夸娥集群支持万卡级扩展,单集群部署超1000节点,亚微秒级延迟 [17] - 5D并行训练技术提升效率,CheckPoint加速方案将恢复时间压缩至1秒 [19] - 零中断容错技术使有效训练时间占比超99%,异常处理效率提升50% [19] 行业应用落地 - 覆盖AI智算、专业图形加速、桌面级图形加速等多领域 [5] - 赋能物理仿真、AIGC、科学计算、具身智能等关键领域 [21] - 开发生命科学、物理仿真、遥感大模型等垂直行业解决方案 [23] - 拓展创娱教育、智能制造、智慧医疗和智能驾驶等应用场景 [25]
国产GPU跑满血DeepSeek,已经可以100 tokens/s了!
量子位· 2025-07-26 17:01
核心观点 - 国产GPU厂商摩尔线程的芯片速度达到100 tokens/s,远超国外GPU的50 tokens/s和国内其他产品的15 tokens/s [1][4] - 摩尔线程通过构建"AI超级工厂"实现系统性技术突破,而非单一芯片性能优化 [6][7][10] - AI超级工厂的五大核心要素包括全功能GPU、MUSA架构、全栈软件、KUAE集群、零中断容错技术 [13][49] 技术架构 全功能GPU - 芯片集成四大引擎:AI计算加速引擎(支持训推一体)、3D图形渲染引擎、物理仿真引擎、超高清视频编解码引擎 [21] - 支持全计算精度覆盖(FP32/FP16/FP8/INT8/INT4),是国内极少数提供FP8训练能力的平台 [22][24] - 通用性设计避免ASIC芯片的局限性,适应多样化AI任务需求 [16][17] MUSA统一架构 - 采用"一个架构,万千应用"理念,实现多引擎可伸缩配置 [26] - 资源全局共享机制解决多任务并行卡顿问题,计算资源利用率提升15% [26][27][32] - 自研Transformer引擎使FP8训练性能提升30%,MTLink2.0互联协议带宽高出行业60% [32] 软件系统 - 驱动优化使核函数启动时间缩短50%,支持千任务并发 [41] - muDNN算子库GEMM利用率达98%,Flash Attention利用率超95% [41] - 通信库实现97%带宽利用率,集群性能提升10% [42] - 全面兼容PyTorch/TensorFlow,DeepSeek R1推理加速1.5倍 [42] 集群能力 KUAE计算集群 - 整合5D并行训练策略(DP/PP/TP等),自动优化并行方案 [45] - CheckPoint加速技术将百GB级恢复时间压缩至1秒 [45] - Simumax工具实现超大规模集群性能仿真,缩短训练周期 [45] 稳定性保障 - 零中断容错技术使有效训练时间占比超99% [51] - 动态监测系统提升异常处理效率50%,训练成功率提高10% [51] 行业背景 - 大模型迭代周期从数月缩短至数周,算力成为核心竞争要素 [54][55] - 未来Agentic AI和空间智能将推动算力需求几何级增长 [56] - 万亿参数模型训练需要端到端解决方案,单点性能突破不足 [59][61]
国产GPU“全能选手”冲刺科创板 摩尔线程的技术长跑
21世纪经济报道· 2025-07-11 12:07
行业前景与市场规模 - 全球GPU市场规模预计在2029年将达到36119.74亿元,中国GPU市场规模将达到13635.78亿元,全球占比从2024年的30.8%提升至37.8%[1] - 中国AI芯片市场规模将从2024年的1425.37亿元激增至2029年的13367.92亿元,年均复合增长率为53.7%,GPU市场份额预计从69.9%上升至77.3%[8] - AI大模型、数字孪生、自动驾驶等前沿技术推动GPU成为下一代算力基建的核心引擎[8] 公司技术路线与产品矩阵 - 公司选择"全功能GPU"技术路线,同时实现图形图像处理、AI张量计算、物理仿真和超高清视频编解码等多种任务协同处理能力[3] - 自研MUSA架构是国内首个单芯片支持AI智算、图形加速、物理仿真的全功能GPU架构,已迭代至第四代[4][6] - 消费级产品MTT S80性能与英伟达RTX 3060相当,AI智算产品MTT S5000构建的千卡集群效率超过国外同代系GPU[4] - 智能终端产品"长江"SoC实现全功能GPU统一内存架构突破,边缘计算产品E300性能超越英伟达同代系[5][6] 商业化进展与财务表现 - 主营业务收入从2022年的4584万元增至2024年的4.32亿元,三年复合增长率达208%[8] - AI智算业务占比77.6%,毛利率从2022年的-70.08%回升至2024年的72.32%[9] - 应收账款周转率9.34远超行业平均1.88,账上货币资金近49亿元[9] 研发投入与知识产权 - 2024年研发投入13.59亿元,研发费用率309.88%,研发人员占比近八成[6] - 截至2024年底获得450项专利授权,包括442项境内专利、33项软件著作权和37项集成电路布图设计专有权[6] 团队背景与战略定位 - 创始团队来自英伟达、惠普、戴尔等国际巨头,创始人张建中曾任英伟达全球副总裁[6] - 构建"芯片+板卡+一体机+算力集群"全线产品矩阵,形成"自研+生态+市场"闭环能力[8][10] - 科创板IPO符合"硬科技"标准:三年研发投入超38亿元,可产业化发明专利超400项[10] 政策与产业环境 - 科创板深化改革为具备核心技术但未盈利的集成电路企业提供上市便利[10] - 国产GPU面临"缺芯"矛盾,全功能GPU路径顺应自主可控趋势[8][11]