英伟达H100

搜索文档
华为芯片,让英伟达黄教主坐不住了
21世纪经济报道· 2025-07-07 16:56
核心观点 - 华为昇腾CloudMatrix 384超节点在部分性能上超越英伟达GB200机柜,整体计算能力达后者的1.6倍[1][13] - 昇腾通过集群化设计弥补单芯片性能差距,实现从"备胎"到"主力"的转变,成功训练出千亿参数大模型[3][6][32] - 昇腾在算力利用率(MFU)上达到全球一流水平,稠密模型MFU超50%,MoE模型达41%-45%[9][10] - 昇腾384超节点采用光互联等系统性工程突破,实现384芯片高效协同,技术路径与英伟达差异化[16][21][29] 技术性能对比 - 单芯片性能为英伟达Blackwell的三分之一,但384超节点通过5倍芯片数量实现系统算力反超[13] - 推理性能对标英伟达H100,在DeepSeek-R1模型测试中算力利用率获全场最佳[11] - 英伟达GB200机柜仅集成72块GPU(下一代144块),华为突破384芯片互联技术[19][20] 技术路径创新 - 采用全对等互联架构与光缆连接,传输效率优于英伟达NVLink铜缆方案[27][29] - 结合鲲鹏CPU与昇腾NPU协同优化,实现"数学补物理"的系统级创新[24][32] - 自研CANN软件栈替代CUDA生态,支持分钟级故障恢复等工程优化[32] 行业竞争格局 - 国内AI芯片形成三大派系:科技巨头(华为/百度/阿里)、纯芯片厂商(寒武纪/燧原等)、细分领域企业(地平线等)[36] - 英伟达仍保持3nm工艺领先优势,CUDA生态历史积淀深厚[33][34] - 美国制裁背景下,昇腾在中国市场加速替代英伟达H20受限产品[36][37] 发展前景 - 华为通过"面积换性能"策略开辟中国特色技术曲线,实现弯道超车[38][39] - 昇腾已验证国产芯片训练千亿参数模型能力,标志国产算力进入实用阶段[6][40]
华为芯片,究竟有多牛?(上)
21世纪经济报道· 2025-07-06 11:12
华为昇腾芯片性能突破 - 昇腾384超节点整体计算能力达英伟达GB200机柜的1.6倍 [3][10] - 单芯片性能为英伟达Blackwell三分之一,但通过5倍芯片数量堆叠实现系统算力反超 [10] - 在DeepSeek-R1大模型推理实战中,昇腾算力利用率表现最佳,对标英伟达H100 [10] 昇腾技术进展与成果 - 昇腾910从"备胎"升级为训练千亿参数大模型的主力芯片 [4][6] - 使用8192颗昇腾芯片训练1350亿参数稠密大模型"盘古Ultra",MFU超50% [6][9] - 6000多颗芯片训练7180亿参数MoE大模型,MFU达41%-45% [6][9] 昇腾与英伟达竞争格局 - 昇腾在AI推理环节已广泛应用,模型训练能力2024年后显著提升 [4][5] - 采用集群剑阵策略弥补单卡性能差距,实现系统级性能领先 [2][10] - 海外机构SemiAnalysis确认昇腾系统算力超越英伟达最新产品 [3][10] 国产算力发展现状 - 昇腾成为国产AI芯片标杆,突破制裁限制实现自主训练能力 [4][6] - 技术论文验证国产芯片可支撑千亿级参数大模型训练 [6] - 算力利用率(MFU)指标达到全球一流水平 [9][10]
AI+代工双引擎 PS与PE低到离谱的英特尔(INTC.US)即将迎来估值修复?
智通财经网· 2025-07-03 15:36
英特尔转型与复兴 - 公司正从长期低迷转向实质性复兴,市场尚未充分认识到这一转变,核心业务趋于稳定,现金流重回正值 [1] - 公司估值显著低于同行,1.8倍市销率(PS)和约16倍EV/EBITDA估值,预期PE估值不到20倍 [1] - 公司正在实施多年重组计划,包括从晶圆制造到边缘AI PC的全面转型 [1] 核心业务进展 - 公司从CPU主导模式重塑为同时销售芯片和制造能力的多元平台,18A工艺已进入初期量产阶段并获得外部订单 [2] - 微软决定基于18A工艺定制芯片,公开代工订单簿达150亿美元 [2] - 公司全面拥抱AI计算需求,酷睿Ultra二代处理器集成片上神经网络引擎,今年将实现量产 [2] 代工业务发展 - 英特尔代工服务(IFS)作为独立核算单位运营,第一季度营收达47亿美元,同比增长7% [3] - 管理层预计IFS将在2027年实现盈亏平衡,18A晶圆已按时完成流片 [3] - 微软、亚马逊及至少两家未公开设计公司已签约18A产能,终身协议价值超150亿美元 [3] AI PC市场机遇 - PC市场迎来Windows 10之后最重要的换机周期,驱动力来自设备端AI [4] - 酷睿Ultra 200系列内置专用神经处理单元,可运行轻量级语言模型和图像生成任务 [4] - 商用笔记本市场占据超70%份额,AI功能可能带来超10亿美元年增量收入 [4] 数据中心加速器 - Gaudi 3加速器在推理速度上比英伟达H100快50%,能效提升40%,物料成本更低 [6] - 公司可将Gaudi与至强6 CPU在异构机架中捆绑销售,目标2027年底前获得AI加速器市场两位数份额 [6] - 行业总规模预计2030年前突破4000亿美元 [6] 政策支持 - 美国商务部批准向公司提供78.6亿美元直接补贴,辅以州级激励和30亿美元国防合同 [7] - 公司是美国唯一能规模化提供先进逻辑芯片本土产能的企业 [7] - 补贴机制降低了新产能的投资门槛,保留了市场低估的协同效应 [7] 财务表现 - 2025年第一季度营收127亿美元,终结连续环比下滑态势 [8] - GAAP毛利率降至36.9%(非GAAP 39.2%),运营亏损从去年同期的-8.4%收窄至-2.4% [8] - 公司产生8亿美元运营现金流,现金及短期投资210亿美元对应500亿美元债务 [8] 财务数据详情 - Q1 2025营收12.7亿美元,与去年同期持平 [9] - 非GAAP毛利率39.2%,同比下降5.9个百分点 [9] - 非GAAP运营利润率5.4%,同比下降0.3个百分点 [9] - 非GAAP每股收益0.13美元,同比下降28% [9]
这种大芯片,大有可为
半导体行业观察· 2025-07-02 09:50
核心观点 - 人工智能模型规模呈指数级增长,传统单芯片GPU架构在可扩展性、能源效率和计算吞吐量方面面临显著局限性 [1] - 晶圆级计算成为变革性范式,通过将多个小芯片集成到单片晶圆上提供前所未有的性能和效率 [1] - Cerebras WSE-3和特斯拉Dojo等晶圆级AI加速器展现出满足大规模AI工作负载需求的潜力 [1] - 台积电CoWoS等新兴封装技术有望将计算密度提高多达40倍 [1] AI硬件发展历程 - Cerebras里程碑包括2019年WSE-1、2021年WSE-2和2024年WSE-3的发布 [3] - NVIDIA产品线从1999年GeForce 256演进至2024年Blackwell B100/B200 GPU [3] - Google TPU系列从2015年初代发展到2024年TPU v6e [5] - 特斯拉于2021年宣布进入AI硬件领域推出Dojo系统 [5] 晶圆级计算优势 - 提供卓越带宽密度,特斯拉Dojo系统每个芯片边缘实现2TB/s带宽 [10] - 实现超低芯片间延迟,Dojo仅100纳秒,远低于NVIDIA H100的12毫秒 [10] - 物理集成度高,Dojo单个训练芯片集成25个芯片,传统方案需10倍面积 [11] - 台积电预计2027年CoWoS技术将提供比现有系统高40倍计算能力 [12] 主要AI训练芯片对比 - Cerebras WSE-3:46,225平方毫米面积,4万亿晶体管,90万个核心,21PB/s内存带宽 [15] - 特斯拉Dojo D1芯片:645平方毫米面积,1.25万亿晶体管,8,850个核心,2TB/s内存带宽 [16] - Graphcore IPU-GC200:800平方毫米面积,236亿晶体管,1,472个核心,47.5TB/s内存带宽 [17] - Google TPU v6e:700平方毫米面积,3.2TB/s内存带宽 [17] 性能比较 - WSE-3在FP16精度下峰值性能达125PFLOPS,支持24万亿参数模型训练 [25] - NVIDIA H100在FP64精度下提供60TFLOPS计算能力 [27] - WSE-3训练700亿参数Llama 2模型比Meta现有集群快30倍 [29] - WSE-3运行80亿参数模型时token生成速度达1,800/s,H100仅为242/s [29] 能效比较 - WSE-3功耗23kW,相同性能下比GPU集群能效更高 [75] - NVIDIA H100能效为7.9TFLOPS/W,A100为0.78TFLOPS/W [74] - WSE-3消除芯片间通信能耗,传统GPU互连功耗显著 [76] - 数据中心冷却系统占总能耗40%,液冷技术成为关键 [83] 制造工艺 - WSE-3采用台积电5nm工艺,4万亿晶体管集成在12英寸晶圆上 [66] - Dojo采用台积电7nm工艺,模块化设计包含25个D1芯片 [68] - WSE-3使用铜-铜混合键合技术,Dojo采用InFO封装技术 [71] - 两种架构均需应对良率挑战,采用冗余设计和容错机制 [67][70] 应用场景 - WSE-3适合大规模LLM、NLP和视觉模型训练 [54] - NVIDIA H100更适合通用AI训练和HPC应用 [54] - Dojo专为自动驾驶和计算机视觉工作负载优化 [57] - GPU集群在数据中心可扩展性方面表现更优 [54]
海外巨头争先抢“电”,关注中美核聚变竞赛的重要投资机会
格隆汇APP· 2025-07-01 18:33
核心观点 - 谷歌母公司Alphabet与CFS签订200MW核聚变电力采购协议,标志着核聚变能源首次实现商业化电力采购,催化A股可控核聚变板块大涨 [1] - AI时代电力需求激增,核聚变因其清洁、安全、高能源密度等优势,成为科技巨头的战略布局重点 [3][4][5] - 中美核聚变技术突破加速,产业化路径从科学验证迈向工程实践,商业化进程超预期 [6][7][8][9][10][11] - 核聚变成为中美科技竞赛的下个赛点,政策与资本双轮驱动加速产业落地 [12][13][14] - 核聚变产业链覆盖上游材料、中游设备、下游集成,未来将形成高技术壁垒、高资本密度、高回报预期的产业结构 [15][16][17][18][19] AI时代电力需求 - AI大模型训练耗电量惊人,单张英伟达H100芯片最大功耗700瓦,训练GPT-3消耗约1287兆瓦时电力 [3] - 国际能源署预测2030年全球数据中心总耗电量将超8000亿千瓦时,占全球用电量近7%,AI和高性能计算贡献最大 [3] - 海外科技巨头加速自建电力:微软与Helion签约2028年供应50MW核聚变电力,谷歌联合创建TAE Technologies研发氢硼聚变反应堆,OpenAI创始人投资Helion Energy等聚变企业 [4][5] - 科技巨头从"买电"走向"控电",核聚变成为AI巨头的战略油田 [5] 中美核聚变技术突破 - 中国EAST装置实现1亿摄氏度1066.76秒稳态长脉冲运行,刷新世界纪录 [7] - 中国BEST项目进入工程总装阶段,计划2027年建成并进行氘氚燃烧实验,2030年实现核聚变发电 [8] - 中国CFETR规划2025年开建,聚焦聚变堆主机核心部件研发,力争2035年前实现发电级反应堆示范 [8] - 美国NIF实现净能量输出,私营企业累计融资超60亿美元,商业化路径多元 [9][10] - 麻省理工学院SPARC项目计划2025年启动验证堆运行,2030年迈入发电阶段 [11] 政策与资本驱动 - 中国"十四五"规划支持先进核能发展,国家能源局、科技部牵头"聚变能专项",地方出台支持政策 [12] - 中国22-25年共核准41台核电机组,聚变联合体成立,多地加大投入 [12] - 美国签署行政令目标2030年前开工建设10座核电站,《通胀削减法案》纳入核聚变发电专项激励 [13] - 美国拨款数亿美元支持聚变研究,拟2030年前推动3-5个商业聚变电站落地 [13] - 美国纽约拟新建15年来首座大型核电站 [14] 产业链与催化节点 - 上游:高温超导、包壳材料、等离子体容器材料等特种材料 [16][17] - 中游:托卡马克/激光点火装置、激光器、磁场线圈、高功率电源等设备 [17] - 下游:电网并网与系统集成 [18][19] - 催化节点:2025年CFETR开建、MIT SPARC启动测试,2026年首个商业化聚变电站示范,2028年微软聚变项目并网供电,2030年中美多个聚变发电示范站并网 [20]
低功耗芯片将成为主流
半导体芯闻· 2025-06-30 18:07
半导体行业转向低功耗技术 - 半导体行业从专注速度和容量转向功耗效率,人工智能芯片成为耗能大户,英伟达即将推出的B100芯片功耗达1000瓦,较前代A100(400瓦)和H100(700瓦)显著提升 [1] - 低功耗芯片需求激增,尤其在智能手机、平板电脑等移动设备中,需在不联网情况下执行AI计算以节省电量,LPDDR技术成为前沿,其双数据路径设计提升速度并降低功耗,目前已发展到第七代(LPDDR5X) [1] 三星电子与SK海力士的LPDDR技术进展 - 三星电子开发出LPDDR5X芯片,数据处理速度最快,容量较上一代提升30%以上,功耗降低25%,已准备量产 [2] - SK海力士率先商业化LPDDR5T DRAM,性能提升5倍,应用于Vivo旗舰机型,每秒可处理15部全高清电影,功耗显著降低 [2] - LPDDR堆叠技术发展迅速,类似HBM技术,旨在提高容量和速度同时降低功耗 [2] 下一代材料与基板技术竞争 - 玻璃基板被视为AI时代“梦想基板”,可提升数据处理速度且不增加功耗,SKC子公司Absolix在美国建厂,三星电子计划2026年量产,LG Innotek已启动相关业务 [3][4] - 氮化镓(GaN)和碳化硅(SiC)芯片正在开发中,可能替代传统硅,三星电子成立专门团队目标2025年量产GaN基半导体 [4] 行业趋势与核心产品变化 - 设备端AI时代LPDDR有望成为核心产品,英伟达CPU已采用LPDDR DRAM而非HBM [4]
瞭望 | 美对华科技封堵落子中东
新华社· 2025-06-24 10:55
美国AI战略调整 - 特朗普政府调整AI战略,打造"中心—边缘"分工体系,将高端技术留在美国本土,下游数据中心等迁至盟国[5] - 美国AI战略从限制出口转向定向扩散,向"值得信赖的合作伙伴"扩散技术以巩固全球技术堆栈[5] - 美国撤销《人工智能扩散规则》,取消对中东国家AI芯片出口限制[5] 中东地区AI布局 - 美国选择中东作为AI算力扩散重点区域,因当地能源丰富且正推动经济转型[6] - 沙特获英伟达1.8万颗H100芯片,部署5000颗Blackwell GPU,未来五年建设500兆瓦AI工厂[8] - 阿联酋获超100万枚英伟达AI芯片,用于建设全球最大AI数据中心园区[9] 企业合作与投资 - 英伟达与沙特合作部署GPU,甲骨文十年内投资沙特140亿美元[8] - 谷歌云与沙特共建达曼数据中心,AMD、ScaleAI等企业参与沙特项目[8] - 微软向阿联酋G42投资15亿美元,甲骨文、思科等提供全面技术支持[9] 技术标准与生态绑定 - 美国推动"可信云"体系导入中东,要求数据中心自主运营防止技术外流[13] - 美企在沙特设立"本地封装+算法优化"中心,支持沙特智慧城市建设[8] - 美国与阿联酋建立"受管制技术环境",实施审计和联合监督机制[13] 中东国家对冲策略 - 海湾国家推行"人工智能主权",减少对单一外国技术栈依赖[15] - 沙特通过公共投资基金向美企投资200亿美元,DataVolt等额投资AI基础设施[8] - 阿联酋承诺十年内向美投资1.4万亿美元,聚焦半导体和科技领域[9] 全球技术竞争格局 - 美国将芯片与AI视为"数字石油"和"燃烧引擎",重塑全球秩序[7] - 美国构建"数字围堵圈",通过技术体系输出遏制他国影响力[2] - 海湾国家在中美技术竞争中采取平衡策略,寻求利益最大化[16]
电子行业跟踪周报:Marvell上调数据中心TAM,关注ASIC趋势对铜连接市场的驱动-20250622
东吴证券· 2025-06-22 18:50
报告行业投资评级 - 增持(维持) [1] 报告的核心观点 - Marvell上修2028年数据中心潜在市场规模预期,定制芯片附件市场增速强劲,CSP厂商加速AI ASIC芯片研发及迭代升级,为定制芯片附件、服务器零部件供应商带来增量机遇;AI ASIC趋势明朗,数据中心铜连接市场潜力大,配套铜缆及连接器相关企业将受益 [1][2][3] 根据相关目录分别进行总结 Marvell上调数据中心TAM,定制芯片附件市场增速强劲 - 本周算力产业链相关公司股价涨幅显著,数通PCB/CCL板块中沪电股份+11.89%、胜宏科技+8.12%、生益电子+6.89%;铜缆板块中瑞可达+6.64%、华丰科技+4.53%;光芯片板块中源杰科技+12.06% [1] - Marvell将2028年数据中心潜在市场规模预期从去年750亿美元上修至940亿美元,其中定制加速芯片554亿美元,2023至2028年复合增速53%;互连芯片190亿美元,复合增速35%;交换芯片132亿美元,复合增速17% [2] - 2028年554亿美元定制加速芯片TAM中,XPU TAM约400亿美元,2023至2028年CAGR为47%,XPU附件TAM约150亿美元,CAGR达90% [2] AI ASIC趋势已明朗,关注数据中心铜连接市场 - 从CSP ASIC服务器方案看,使用铜缆进行短距互连已成趋势,AWS今年有望采购150万颗自研芯片,大部分使用AEC互连,Trainium3年底推出后800G AEC需求有望增加;微软已开始使用AEC构建AI网络;谷歌TPU互连可能转向AEC;Meta Minerva机柜系统使用了特定电缆背板盒;X.AI对AEC有大量需求;国内阿里巴巴和字节跳动等公司也在考虑或已采用AEC [3] - 650 Group联合创始人预计到2026年,AEC芯片的出货量有望达到近2500万颗,随着AI ASIC芯片逐步放量,配套铜缆品牌商、铜缆代工商、线缆供应商、连接器供应商均将受益 [3] 产业链相关公司 - 铜缆/连接器相关公司有博创科技、兆龙互连、沃尔核材、华丰科技、鼎通科技 [4]
为什么定义2000 TOPS + VLA + VLM为L3 级算力?
自动驾驶之心· 2025-06-20 22:06
规模法则在自动驾驶中的应用 - 小鹏汽车在CVPR 2025论文中验证规模法则(Scaling Laws)在自动驾驶领域持续生效,核心发现是模型性能与参数规模、数据规模、计算量之间存在幂律关系 [4] - 在10亿(1B)、30亿、70亿直至720亿(72B)参数的VLA模型上验证了"参数规模越大模型能力越强"的规律 [6] - 确立了"海量高质量数据+大模型驱动"的自动驾驶能力跃升路径,VLA模型在VLM基础上增加了决策和行动能力 [6] 自动驾驶算力需求分级 - 从L2到L3级别算力需求呈指数级增长,L2级需80-300TOPS,L3级跃升至千TOPS级别 [8] - L3级需处理复杂城市道路场景,包括多样化交通参与者、动态环境条件等,需大规模神经网络实时推理 [8] - 小鹏提出2000TOPS+VLA+VLM作为L3级自动驾驶算力新标准 [6][8] VLA+VLM架构技术细节 - VLA架构以大语言模型为骨干,集成视觉理解、链式推理和动作生成能力 [10] - 视觉处理模块需数百TOPS算力处理多传感器数据融合 [10] - 语言理解模块在复杂交通场景语义理解时消耗大量计算资源 [10] - 动作规划模块涉及路径规划、行为预测等计算密集型任务 [10] 车载算力与数据中心算力对比 - 车载算力注重实时性与功耗平衡,需在有限空间和功耗下实现高效计算 [12] - 数据中心算力用于离线训练,能力是车载系统的数十至数百倍,可处理海量历史数据 [15] - 车载芯片如NVIDIA Orin、华为昇腾追求高能效比(TOPS/Watt) [12] 行业竞争格局与技术趋势 - 华为昇腾芯片系统算力达400TOPS,蔚来ET7搭载英伟达Orin平台(254TOPS) [17] - 英伟达下一代Thor芯片采用4nm工艺,基础版1000TOPS,增强版2000TOPS [20] - 小鹏G7采用三片自研图灵AI芯片,等效9颗英伟达Orin-X芯片 [20] - ADAS芯片市场份额:英伟达36%(年出货150万片)、特斯拉28%、华为11%、Mobileye 9%、地平线8% [20]
军用稀土排除在外,特朗普终于明白,已没有从实力地位出发的资本
搜狐财经· 2025-06-18 20:15
关于伦敦贸易谈判的具体结果,中美双方至今没有正式公布,但有消息人士透露,中方已经同意批准部分非军事用途的稀土出口许可,然而对于军 用特种稀土的出口请求,则始终未做让步。对应地,美国逐步放宽了对某些高科技产品的出口限制,但在高端人工智能芯片方面依旧坚持强硬立 场。据悉,美国正考虑将8月10日到期的关税暂停协议,再次延长90天。 以军用特种稀土钐为例,这种鲜为人知的稀土金属在军事领域应用广泛。钐钴磁铁制成的部件即便在战机发动机那样高温环境中,依然能保持强大 的磁性能。导弹的高速旋转电机、飞机上的雷达系统等关键设备,都依赖钐钴磁铁提供稳定的磁场。 还记得伦敦谈判刚刚结束时,特朗普满怀信心地在社交媒体上宣称,中美达成了一项重大交易:中国将允许美国留学生继续赴美,而作为交换,中 国则全面解禁稀土出口。彼时就有不少人怀疑,这不过是特朗普的一厢情愿,结果证明这些怀疑并非空穴来风。 那么,美国最需要钐的是谁呢?答案是制造F-35隐形战斗机的军工巨头洛克希德·马丁公司。一架F-35战斗机大约需要23公斤钐钴磁铁,用于发电 机、舵机及传感器等核心部件。中国如今卡住这些中重稀土的出口,无异于扼住了美国军工产业的咽喉。 美国当然并非 ...