Workflow
AI训推一体芯片“华山”
icon
搜索文档
H200春节前重返中国,黄仁勋有多少胜算?
钛媒体APP· 2025-12-23 10:35
英伟达H200芯片对华出口计划与市场前景 - 公司计划在2025年2月17日(农历马年春节)前向中国出口H200芯片,首批出货量预计在4万颗到8万颗之间,主要来自库存产能 [2] - 公司已计划增产H200,以供应2025年第二季度的中国市场 [2] - 截至发稿,公司官方未对相关出口消息作出回应 [3] 政策审查与出口许可进展 - 2024年12月8日,特朗普宣布在确保美国国家安全的前提下,将允许英伟达向中国交付H200芯片,但同时须将销售所得的25%上缴美国政府 [3] - 美国商务部已将H200的出口许可证送交美国国务院、能源部和国防部进行审查,流程时间可能在30天之内 [3][4] - 特朗普掌握着最终决定权,且对英伟达态度较为积极 [4] - 美国民主党参议员伊丽莎白·沃伦和众议员格雷戈里·米克斯要求商务部公开更多许可证信息,以评估芯片是否会用于军事领域 [6] 中国市场准入的不确定性 - 目前没有消息显示中国官方批准了任何与H200相关的采购方案 [3] - 自2024年4月特朗普政府实施对华芯片出口限制令后,公司产品逐渐从中国市场撤出,公司CEO称其AI芯片在中国的市占率从95%跌到了0 [3] - 2024年7月31日,国家网信办就H20算力芯片漏洞后门安全风险约谈英伟达,公司强调不存在“后门”,但该事件目前没有进一步公开进展 [6] - 在国产替代背景下,公司短期内能否重回中国市场仍难有定论 [6] - 公司CEO黄仁勋表示,目前“已不清楚中国是否会接受H200” [9] 潜在客户与市场需求 - H200的首批客户预计将是阿里巴巴、字节跳动和腾讯等互联网科技巨头 [7] - 在特朗普宣布允许H200出口后,国内已有大厂与英伟达接洽采购事宜,并已向有关监管机构提交详细说明 [7] - 受制于禁令,有中国公司通过日本、新加坡等渠道“走私”英伟达芯片,或在海外部署芯片训练大模型,证明了强烈的市场需求 [7] - 对英伟达产品需求度极高的场景是正在大模型训练、AI基础设施领域展开竞争的互联网科技巨头 [7] 对业绩的潜在影响 - 以单卡2-4万美元的市场报价估算,计入需向美国政府缴纳的25%税收,首批出货(4万至8万颗)的销售额或在10亿到40亿美元之间 [8] - 公司2025年第三季度财报披露,其Hopper系列芯片当季在中国市场销售总额仅为5000万美元,大额采购订单均未能实现 [8] - 公司给出的第四财季(2025年11月至2026年1月)业绩指引未包括任何中国数据中心营收 [8] - 在2024财年,公司中国区营收一度高达171亿美元 [8] H200的技术优势与竞争环境 - 在大模型训练场景中,H200相对于国产芯片在容量、带宽等关键指标上仍有较明显优势,存在代际差 [9] - 国产大模型的部署大多基于英伟达的GPU架构和CUDA生态,直接使用H200能减少迁移、适配的成本和风险 [9] - 国产芯片性能正在提升,例如摩尔线程发布的新一代AI训推一体芯片“华山”,在浮点算力、访存带宽、访存容量、高速互联带宽方面已宣称全面超越英伟达的Hopper系列芯片 [9] - 摩尔线程正在打造MUSA生态,挑战英伟达的CUDA生态 [9] AMD在中国市场的竞争动态 - AMD对中国市场十分迫切,2024年中国区营收占该公司总营收的24% [10] - AMD董事长兼首席执行官苏姿丰已于2024年12月率高管团队访华,与中国客户和官方人士会面 [6][11] - 苏姿丰在2024年11月曾透露,公司的AI芯片MI308已获取美国政府的出口许可证,并准备好为其对华出口缴税 [10] - 访华期间,苏姿丰会见了中国驻美大使谢锋、工信部部长李乐成、商务部部长王文涛,探讨公司在华经营与合作 [11] - 相比于英伟达,AMD在重回中国市场的道路上,于政策沟通和进展上似乎略胜一筹 [11]
摩尔线程新一代GPU架构“花港”发布,支持十万卡智算集群扩展
凤凰网· 2025-12-20 18:20
新一代GPU架构与芯片发布 - 摩尔线程发布新一代全功能GPU架构“花港”,基于新一代指令集,算力密度提升50%,支持从FP4到FP64的全精度端到端计算,新增MTFP6/MTFP4及混合低精度支持,集成新一代异步编程模型,并支持通过自研MTLink高速互联技术实现十万卡以上规模智算集群扩展[1][4] - 基于“花港”架构,公司公布两款芯片技术路线:专注AI训推一体的“华山”芯片,为万卡级智算集群提供算力支撑;专攻高性能图形渲染的“庐山”芯片,其AI计算性能提升64倍,几何处理性能提升16倍,光线追踪性能提升50倍[1][5][7] - 公司正式发布夸娥万卡智算集群,其浮点运算能力为10Exa-Flops,在Dense大模型上训练算力利用率达60%,在MOE大模型上达40%,有效训练时间占比超过90%,训练线性扩展效率达95%[7] 新产品与解决方案 - 公司推出夸娥万卡智算集群、MT Lambda具身智能仿真训练平台以及基于“端云结合”的MT Robot具身智能解决方案,并宣布将于2026年第一季度开源关键仿真加速组件Mujoco-warp-MUSA[7][9] - 公司发布面向开发者的AI算力本MTT AIBOOK,搭载自研“长江”智能SoC,提供高达50TOPS的端侧AI算力,同时预告了基于“长江”SoC打造的迷你型计算设备MTT AICube[9] - 公司公布MTT C256超节点的架构规划,该产品采用计算与交换一体化的高密设计,旨在系统性提升万卡集群的训练效能与推理能力[11] - 当虹科技、中望软件、中控技术等多家科创板上市公司与摩尔线程开展合作,涉及多模态空间大模型、时间序列大模型适配及全栈国产化三维CAD一体化解决方案[3] 软件生态与开发者战略 - 公司将MUSA软件架构升级到5.0版本,兼容TileLang、Triton等编程语言,核心计算库muDNN实现GEMM/FlashAttention效率超98%,通信效率为97%,编译器性能提升3倍,并计划逐步开源计算加速库、通信库及系统管理框架在内的核心组件[12] - 公司即将推出兼容跨代GPU指令架构的中间语言MTX、面向渲染+AI融合计算的编程语言muLang、量子计算融合框架MUSA-Q以及计算光刻库muLitho[12] - 行业专家指出,国产GPU芯片要实现生态自立,关键在于解决迁移成本高、工具链不成熟、文档/社区与支持不足等问题,实现从“能用”到“愿用”的转变,开发者是生态的核心资源[10][12] - 针对国产AI芯片软件生态存在的“内卷”与碎片化问题,专家呼吁建立统一或高度兼容的接口标准,通过产业联盟推动联合优化,并在关键基础软件上形成共享的开放底座[13] 大规模智算集群的发展与挑战 - 行业观点认为,从主权AI基建角度,“万卡甚至十万卡集群”是必选项,因为模型时代的基本单位是集群总算力,预训练超大规模模型、服务国民级推理需求需要持续可用的万卡级训练集群[14] - 构建大规模集群的主要工程挑战包括:基于以太网等通用网络实现All-Reduce与低延迟通信、提升可靠性与运维能力以应对单点故障常态、以及满足百兆瓦级电力需求所需的机房与园区级综合设计[14] - 国产集群实践表明,在“通用网络+自研通信库+软硬件”协同设计下,可以构建“可用”的大规模系统,但这需要长期持续的工程投入[14]