AI训推一体芯片“华山” - 财报，业绩电话会，研报，新闻

AI训推一体芯片“华山”

搜索文档

钛媒体APP· 2025-12-23 10:35

英伟达H200芯片对华出口计划与市场前景 - 公司计划在2025年2月17日（农历马年春节）前向中国出口H200芯片，首批出货量预计在4万颗到8万颗之间，主要来自库存产能 [2] - 公司已计划增产H200，以供应2025年第二季度的中国市场 [2] - 截至发稿，公司官方未对相关出口消息作出回应 [3] 政策审查与出口许可进展 - 2024年12月8日，特朗普宣布在确保美国国家安全的前提下，将允许英伟达向中国交付H200芯片，但同时须将销售所得的25%上缴美国政府 [3] - 美国商务部已将H200的出口许可证送交美国国务院、能源部和国防部进行审查，流程时间可能在30天之内 [3][4] - 特朗普掌握着最终决定权，且对英伟达态度较为积极 [4] - 美国民主党参议员伊丽莎白·沃伦和众议员格雷戈里·米克斯要求商务部公开更多许可证信息，以评估芯片是否会用于军事领域 [6] 中国市场准入的不确定性 - 目前没有消息显示中国官方批准了任何与H200相关的采购方案 [3] - 自2024年4月特朗普政府实施对华芯片出口限制令后，公司产品逐渐从中国市场撤出，公司CEO称其AI芯片在中国的市占率从95%跌到了0 [3] - 2024年7月31日，国家网信办就H20算力芯片漏洞后门安全风险约谈英伟达，公司强调不存在“后门”，但该事件目前没有进一步公开进展 [6] - 在国产替代背景下，公司短期内能否重回中国市场仍难有定论 [6] - 公司CEO黄仁勋表示，目前“已不清楚中国是否会接受H200” [9] 潜在客户与市场需求 - H200的首批客户预计将是阿里巴巴、字节跳动和腾讯等互联网科技巨头 [7] - 在特朗普宣布允许H200出口后，国内已有大厂与英伟达接洽采购事宜，并已向有关监管机构提交详细说明 [7] - 受制于禁令，有中国公司通过日本、新加坡等渠道“走私”英伟达芯片，或在海外部署芯片训练大模型，证明了强烈的市场需求 [7] - 对英伟达产品需求度极高的场景是正在大模型训练、AI基础设施领域展开竞争的互联网科技巨头 [7] 对业绩的潜在影响 - 以单卡2-4万美元的市场报价估算，计入需向美国政府缴纳的25%税收，首批出货（4万至8万颗）的销售额或在10亿到40亿美元之间 [8] - 公司2025年第三季度财报披露，其Hopper系列芯片当季在中国市场销售总额仅为5000万美元，大额采购订单均未能实现 [8] - 公司给出的第四财季（2025年11月至2026年1月）业绩指引未包括任何中国数据中心营收 [8] - 在2024财年，公司中国区营收一度高达171亿美元 [8] H200的技术优势与竞争环境 - 在大模型训练场景中，H200相对于国产芯片在容量、带宽等关键指标上仍有较明显优势，存在代际差 [9] - 国产大模型的部署大多基于英伟达的GPU架构和CUDA生态，直接使用H200能减少迁移、适配的成本和风险 [9] - 国产芯片性能正在提升，例如摩尔线程发布的新一代AI训推一体芯片“华山”，在浮点算力、访存带宽、访存容量、高速互联带宽方面已宣称全面超越英伟达的Hopper系列芯片 [9] - 摩尔线程正在打造MUSA生态，挑战英伟达的CUDA生态 [9] AMD在中国市场的竞争动态 - AMD对中国市场十分迫切，2024年中国区营收占该公司总营收的24% [10] - AMD董事长兼首席执行官苏姿丰已于2024年12月率高管团队访华，与中国客户和官方人士会面 [6][11] - 苏姿丰在2024年11月曾透露，公司的AI芯片MI308已获取美国政府的出口许可证，并准备好为其对华出口缴税 [10] - 访华期间，苏姿丰会见了中国驻美大使谢锋、工信部部长李乐成、商务部部长王文涛，探讨公司在华经营与合作 [11] - 相比于英伟达，AMD在重回中国市场的道路上，于政策沟通和进展上似乎略胜一筹 [11]

摩尔线程新一代GPU架构“花港”发布，支持十万卡智算集群扩展

凤凰网· 2025-12-20 18:20

新一代GPU架构与芯片发布 - 摩尔线程发布新一代全功能GPU架构“花港”，基于新一代指令集，算力密度提升50%，支持从FP4到FP64的全精度端到端计算，新增MTFP6/MTFP4及混合低精度支持，集成新一代异步编程模型，并支持通过自研MTLink高速互联技术实现十万卡以上规模智算集群扩展[1][4] - 基于“花港”架构，公司公布两款芯片技术路线：专注AI训推一体的“华山”芯片，为万卡级智算集群提供算力支撑；专攻高性能图形渲染的“庐山”芯片，其AI计算性能提升64倍，几何处理性能提升16倍，光线追踪性能提升50倍[1][5][7] - 公司正式发布夸娥万卡智算集群，其浮点运算能力为10Exa-Flops，在Dense大模型上训练算力利用率达60%，在MOE大模型上达40%，有效训练时间占比超过90%，训练线性扩展效率达95%[7] 新产品与解决方案 - 公司推出夸娥万卡智算集群、MT Lambda具身智能仿真训练平台以及基于“端云结合”的MT Robot具身智能解决方案，并宣布将于2026年第一季度开源关键仿真加速组件Mujoco-warp-MUSA[7][9] - 公司发布面向开发者的AI算力本MTT AIBOOK，搭载自研“长江”智能SoC，提供高达50TOPS的端侧AI算力，同时预告了基于“长江”SoC打造的迷你型计算设备MTT AICube[9] - 公司公布MTT C256超节点的架构规划，该产品采用计算与交换一体化的高密设计，旨在系统性提升万卡集群的训练效能与推理能力[11] - 当虹科技、中望软件、中控技术等多家科创板上市公司与摩尔线程开展合作，涉及多模态空间大模型、时间序列大模型适配及全栈国产化三维CAD一体化解决方案[3] 软件生态与开发者战略 - 公司将MUSA软件架构升级到5.0版本，兼容TileLang、Triton等编程语言，核心计算库muDNN实现GEMM/FlashAttention效率超98%，通信效率为97%，编译器性能提升3倍，并计划逐步开源计算加速库、通信库及系统管理框架在内的核心组件[12] - 公司即将推出兼容跨代GPU指令架构的中间语言MTX、面向渲染+AI融合计算的编程语言muLang、量子计算融合框架MUSA-Q以及计算光刻库muLitho[12] - 行业专家指出，国产GPU芯片要实现生态自立，关键在于解决迁移成本高、工具链不成熟、文档/社区与支持不足等问题，实现从“能用”到“愿用”的转变，开发者是生态的核心资源[10][12] - 针对国产AI芯片软件生态存在的“内卷”与碎片化问题，专家呼吁建立统一或高度兼容的接口标准，通过产业联盟推动联合优化，并在关键基础软件上形成共享的开放底座[13] 大规模智算集群的发展与挑战 - 行业观点认为，从主权AI基建角度，“万卡甚至十万卡集群”是必选项，因为模型时代的基本单位是集群总算力，预训练超大规模模型、服务国民级推理需求需要持续可用的万卡级训练集群[14] - 构建大规模集群的主要工程挑战包括：基于以太网等通用网络实现All-Reduce与低延迟通信、提升可靠性与运维能力以应对单点故障常态、以及满足百兆瓦级电力需求所需的机房与园区级综合设计[14] - 国产集群实践表明，在“通用网络+自研通信库+软硬件”协同设计下，可以构建“可用”的大规模系统，但这需要长期持续的工程投入[14]