GPU生态
搜索文档
GPU四小龙忙上市:“中国英伟达”的较量,才刚刚开始
36氪· 2025-12-29 18:29
行业概览 - 国产GPU“四小龙”(摩尔线程、沐曦股份、壁仞科技、天数智芯)于2024年12月齐聚资本市场,其中摩尔线程与沐曦股份已登陆A股,壁仞科技在港股启动招股,天数智芯已通过港交所聆讯 [1] - 国产GPU的技术演进路径是在兼容现有生态与探索架构创新之间寻找动态平衡,并非简单的国产化替代 [1] - 国产通用GPU产品在中国市场的占比已从2022年的8.3%提升至2024年的17.4%,预计到2029年将超过50% [18] - 政策层面提出目标,到2027年国产智能计算芯片市场份额需提升至30% [18] 公司技术与产品路径 - **摩尔线程**:创始团队拥有英伟达背景,产品强调生态兼容性,坚持图形渲染与AI计算双线并行,通过自研MUSA架构高度适配英伟达“GPU+CUDA”生态 [2] - **沐曦股份**:创始团队拥有AMD背景,战略倾向于舍弃复杂图形渲染功能,将资源集中在高性能并行计算和多精度混合算力上 [2] - **天数智芯**:核心团队来自多个大厂,是国内通用GPU领域首个实现量产并规模化交付的厂商,产品线分为侧重训练的“天垓”系列和侧重推理的“智铠”系列 [3] - **壁仞科技**:创始团队汇聚英伟达、AMD、Intel背景,选择原创“壁立仞”架构,是中国首家采用2.5D Chiplet技术封装双AI计算裸晶的公司,以追求极致计算性能 [3] - Chiplet技术可通过混合不同工艺节点组合实现与先进制程芯片相当的性能,同时因单个裸晶面积小,良率更高,对量产意义重大 [3] 产品性能与参数对比 - **壁仞科技BR100**:显存规格64GB HBM2E,显存带宽2.3 TB/s,16位算力1024 TFLOPS (FP16) [3] - **摩尔线程MTT S4000**:显存规格48GB,显存带宽768 GB/s,16位算力100 TFLOPS [3] - **沐曦股份曦云C550**:显存规格64GB HBM2E,显存带宽1.6 TB/s+级别,16位算力对标英伟达A100 [3] - **天数智芯天垓100**:显存规格32GB HBM2,显存带宽1.2 TB/s,16位算力147 TFLOPS (FP16) [3] 应用场景与商业化进展 - **壁仞科技**:聚焦高端训练,已在中国电信落地千卡集群,支撑千亿参数模型训练30天无中断运行 [6][7] - **摩尔线程**:走全功能GPU平台路线,其“夸娥”万卡集群已与多家大型数据中心签约 [6][7] - **沐曦股份**:走高度现实主义路线,涵盖低中高端市场,强调数据中心工程交付与行业落地,招股书披露在手订单14.3亿元 [6][7] - **天数智芯**:走训练与推理双线,产品在互联网、智能制造等垂直领域兼容性测试通过率极高 [6][7] 资本实力与股东背景 - **摩尔线程**:融资超过10次,总金额达百亿级别,Pre-IPO轮估值达300亿元,股东包括腾讯、字节、联想、中国移动等 [10][13] - **沐曦股份**:经历七次增资,总金额数十亿,最近一次外部股权融资后估值为210.71亿元,股东包括国家集成电路产业投资基金和国家互联网投资基金 [10][13] - **壁仞科技**:获得10轮融资,募资总金额超过90亿元,最后一轮融资投前估值为190亿元,股东包括上海、珠海、青岛等多地政府产业基金 [10][13] - **天数智芯**:十年内完成10轮融资,总金额超过35亿元,2025年D+轮融资超14亿元,投前估值达120亿元,股东包括顶级PE和地方产业基金 [10][14] 市场竞争格局 - 四家公司竞争重叠度大,均在争夺互联网大厂和地方政府智算中心的基建订单 [15] - 在国产芯片内部,华为昇腾以约40%的份额绝对领跑,其昇腾910B在推理性能上达到英伟达H20的85%-95% [16] - 市场参与者还包括寒武纪、海光等芯片巨头 [17] 财务与运营状况 - 行业共性为高增长伴随高亏损,研发投入巨大 [19][20] - **2024年研发费用**:摩尔线程13.59亿元(研发费用率309.88%),沐曦科技9.01亿元(研发费用率121.24%),壁仞科技8.27亿元(研发费用率245.50%),天数智芯7.73亿元(研发费用率143.20%) [21] - **2024年毛利率**:各公司基本维持在50%以上,但壁仞科技毛利率从2023年的76.4%降至2025年上半年的31.9%,反映业务向规模化销售转变 [21] - 沐曦科技在2025年第二季度实现单季盈利,市场预计行业实现盈利的时间点普遍在2026-2027年左右 [22] - 随着营收增长,应收账款显著增加,例如壁仞科技应收账款从2022年底的9.5万元飙升至2024年底的8667万元 [22] 未来关键挑战 - **软件生态建设**:需持续投入IP研发与软件堆栈建设以形成完善开发者社区,国产生态成熟度与英伟达CUDA存在巨大差距 [23] - **客户基础与复购**:未来需获得对性能、成本、生态有严苛要求的市场化客户的持续采购 [24] - **供应链稳定**:在先进制程受限背景下,稳定供应链的能力至关重要 [25]
上市15天,摩尔线程剑指英伟达腹地
虎嗅APP· 2025-12-20 21:20
核心观点 - 摩尔线程在首届MUSA开发者大会上发布了一系列重大技术进展,包括新一代GPU架构“花港”、两款新芯片以及多项软件生态创新,旨在向外界传递其坚定构建以MUSA为核心的、类似英伟达CUDA的生态护城河的决心[4] - 公司正从追求芯片“能用”向“好用”演进,通过发布中间语言MTX、拓展具身智能等新场景,全方位搭建软硬件生态,挑战行业巨头英伟达的生态霸权[4][20][26] 新发布的技术架构与芯片 - 发布全新一代全功能GPU架构“花港”,相比前代“平湖”架构,算力密度提升50%,能效大幅优化,并支持从FP4到FP64的全精度端到端计算[2][11] - 基于“花港”架构发布两款芯片:AI训推一体芯片“华山”和高性能图形渲染芯片“庐山”[2][14] - “庐山”芯片在集成AI生成式渲染后,AI计算性能较前代MTT S80提升64倍,几何处理性能提升16倍,光线追踪性能提升50倍[16] - “华山”芯片能够适配多种“类以太协议”和多种Scale-Up switch,最高支持1024片超节点扩展,体现了生态兼容性[14] 软件生态与关键技术创新 - 首次发布中间语言MTX,作为MUSA 5.0软件栈的一部分,旨在兼容不同代际GPU指令架构,降低开发者适配成本,为上层软件生态提供稳定底层支撑[5][7] - 公司计划在明年上半年向开发者开放自研的MTX,此举被视为挑战行业惯例、构建生态护城河的关键一步[8] - 新一代架构支持自研的MTLink高速互联技术,将支持十万卡以上规模的智算集群扩展[11] - 推出“夸娥万卡智算集群”,在万卡规模下具备全精度、全功能通用计算能力,可实现高效稳定的AI训练与推理[4][18] 产品与应用场景拓展 - 发布面向端侧的“长江”SoC,通过CPU+GPU+NPU组合最高可提供50 TOPS的异构AI算力,并基于此推出了MT Robot具身智能解决方案和“MTT AIBOOK”算力本等产品[21][23] - 推出MT Lambda具身智能仿真训练平台,核心聚焦于“全栈融合”,旨在将物理引擎、渲染引擎与AI引擎深度整合,提升研发效率[25] - MT Lambda平台可直接部署到MT Robot上,形成软硬件高效协同,展示了公司在“端—边—云”算力协调上的布局[23][26] - 新一代“花港”架构内置AI生成式渲染结构并完整支持DirectX 12 Ultimate,预示公司消费级显卡产品将得到迭代[13] 行业背景与公司战略 - 国内GPU行业的叙事重点正从“能用”转向“好用”,在美国对华出口限制(如H200解禁)的背景下,国内从业者感到紧迫[20] - 在GPU行业中,面对英伟达的领先地位,“不做生态”曾被视为某种程度的政治正确,但摩尔线程正通过全方位搭建生态来打破这一惯例[9] - 公司正试图通过“全栈软硬件架构+全场景产品”的布局,在每一个与“计算”相关的行业中占据身位,每一步都在拓展生态边界[26]
“国产GPU第一股” 再传利好
上海证券报· 2025-11-28 17:30
公司技术进展 - 公司正式发布PyTorch深度学习框架的MUSA扩展库Torch-MUSA v2.7.0,新版本在功能集成、性能优化与硬件支持方面实现突破 [1] - Torch-MUSA在短短一个月内连续完成v2.5.0和v2.7.0两次版本更新,体现公司在MUSA生态建设上的持续投入与快速迭代能力 [4] - 新版本新增动态双精度转换、分布式检查点等特性,并集成muSolver与muFFT等计算加速库,显著提升复杂计算任务执行效率 [6][10] - 目前Torch-MUSA专属支持的算子总数已超过1050个,系统在性能与稳定性方面均实现提升,为大模型训练与推理提供更高效可靠的底层支持 [5][6] - 新版本新增对统一内存设备的UMM支持,有效优化内存使用效率 [10] - 公司计划下一版本支持PyTorch 2.9.0,并进一步优化性能与功能,持续构建和完善基于MUSA架构的深度学习生态 [10] MUSA架构与生态 - MUSA架构是公司自主研发的融合GPU硬件和软件的全功能GPU计算加速统一系统架构 [10] - 基于MUSA架构,公司率先实现了单芯片架构同时支持AI计算加速、图形渲染、物理仿真和科学计算、超高清视频编解码的技术突破 [12] - MUSA是其GPU架构、软件、生态的总称,具备替代由英伟达及其CUDA主导的国际主流GPU生态的能力 [15] - 公司从0构建了底层硬件架构、指令集、编译器、驱动等组件,提供算子加速库、通信库、监控管理工具等,并向上对接人工智能框架及应用生态 [15] - MUSA软件栈原生支持FP8混合精度计算,显著提升大模型训练和推理效率,同时支持FP64的高精度科学仿真计算 [15] - 越丰富的算子库越有助于充分释放GPU算力、提升计算效率、降低开发者应用门槛、提升生态兼容性和支撑更丰富的应用场景 [15] 公司上市与业务拓展 - 作为“国产GPU第一股”,公司从IPO受理到过会仅用时88天 [17] - 公司IPO发行价格为114.28元/股,预计募集资金总额为80亿元,扣除发行费用后预计募集资金净额为75.76亿元 [17] - 公司与国家信息中心签署战略合作协议,将在算力领域前瞻性研究、算力产业生态培育、算力网共性技术研发等方面开展全方位合作 [18][20] - 双方合作旨在共同推进全国一体化算力网体系建设,助力数字经济高质量发展 [20]